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Beschreibung 

VERFAHREN 2UM TRAINIEREN EINES S PRECHERERKENNUNGSS YSTEMS 

Die Erfindung betrifft ein Verfahren zum Erkennen von Spre- 
chern anhand deren Stimmen. 

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein 
Verfahren zum Erkennen von Sprechern anhand deren Stimmen an- 
zugeben, das robust , sicher und zuverlassig ist. 

Diese Aufgabe wird erf indungsgemafl durch die im Patentan- 
spruch 1 angegebenen Merkmale gelost. 

Im folgenden wird die Erfindung unter Verwendung eines Flufi- 
diagramms naher beschrieben. 

1. 

Die Erfindung ermoglicht die Erkennung des Sprechers anhand 
seiner Stimme. Das Problem der Sprechererkennung besteht dar- 
in, zwischen verschiedenen Sprechern zu unterscheiden oder 
die vorgegebene Sprecheridentitat zu ttberprtifen, wobei die 
einzige Eingangsinformation die Aufzeichnung der Stimme des 
Sprechers ist. 

Aufierdem wird eine Methode vorgeschlagen, die das tJberlisten 
des Zugangs systems verhindert, wenn die Stimme und das 
Schltisselwort von Dritten aufgenommen wird* 

Bei der Speicherung von komplexen Wahrscheinlichkeitsvertei- 
lungen ftir die Sprachparameter eines Sprechers mufi zwischen 
Genauigkeit und Speicherbedarf ein Kompromiss geschlossen 
werden. Deswegen werden Methoden der Speicherung der Wahr- 
scheinlichkeitsverteilungen vorgeschlagen, die abhangig von 
der Anzahl der Sprecher einsetzbar sind. 
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2. 

Die Sprechererkennung wurde bisher z.B. mit Hilfe von Hidden- 
Markov Modellen oder durch Vektorquantisierung gelost, siehe 
Literatur [1] . 

3. 

Die Erfindung lost das Problem der Sprechererkennung basie- 
rend auf den Parametern einer Analyse durch Synthese Kodie- 
rers mit der Linearen Pradiktion (LPAS) [1] (z.B. eines Har- 
monic Vector Excited Codecs [5] oder Waveform Interpolation 
Codec [4]). Die bisher verwendeten Parameter des Sprachsig- 
nals wie z.B. Cepstrale AR Parameter bringen keine zufrieden- 
stellende Losung des Problems, Deswegen mufi auf andere Para- 
meter zugegriffen werdenwie z.B. Parameter der Anregung des 
Vokaltraktes, die sprecherabhangige und zugleich weitgehend 
phonemenunabhangige Information tragen. 

Daruber hinaus wird die Methode der Schatzung der Wahrschein- 
lichkeitsverteilung der Kodiererparameter ftir den jeweiligen 
Sprecher gegeben, und eine Methode, die das Uber listen des 
Zugangs systems verhindert. 

Sprecheridentif ikation 

Bei Systemen zur Sprechererkennung wird nach den statisti- 
schen Prinzipen [2] geprtift, ob der gesprochene Satz von ei- 
nem der vom Sprechererkennungssystem erfassten Sprecher ge- 
sprochen wurde- Dabei gibt es grundsatzlich zwei Arten von 
Sprechererkennungssystemen, die textabhangigen und die text- 
unabhangigen Systeme. Fur die in der Erfindung beschriebene 
Prozedur wird die Textunabhangigkeit des System durch eine 
erweiterte Trainingsphase erreicht, in der der Sprecher ein 
vielfaltiges Material aufzeichnen muB und die Wahrscheinlich- 
keitsverteilungen der erwahnten Sprachsignalparameter aus dem 
gesamten Sprachmaterial bestimmt. Das Trainieren eines text- 
abhangigen Systems ist eine einfachere Aufgabe, weil das 
Sprachmaterial/ das vom Sprecher wahrend der Nutzungsphase 
gesprochen wird, auf einige Schliisselworte ode'r bestimmte 
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Satze begrenzt ist. Die Vorbereitungsphase wird so lange 
durchgefiihrt, bis das System sicher die Stimme des Sprechers 
erkennt . 

Die Aufgabe der Sprecheridentifikation ist in Bild 2 darge- 
stellt. 



Stimme des Sprechers 



Von welchem Sprecher ist die Stimme? 







Bild 2. Problem der Sprecheridentifikation 
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Die Sprecheridentifikation wird als ein Problem der Multiplen 
Detektion behandelt [2], Die zu unterscheidenden Klassen, ei- 
ne fur jeden Sprecher, das vom System erkannt werden soil, 
werden als sp, i = 1..M bezeichnet, mit M - Anzahl der von 
dem Sprechererkennungssystem erfassten Sprecher. Die Spre- 
chererkennung basiert auf den auf gezeichneten Sprachsignalen 
der jeweiligen Sprecher. Das Sprachsignal wird segmentiert in 
die Signalrahmen x = [x(l). jc(K)] (z.B. fur einen Signalrahmen von 
20 ms Lange und eine Abtastf requenz von 8 kHz betragt K = 
160) . Die Segmentierung liefert die Sprachsignalrahmen 
x(1).jc(A0, wobei N von der Gesamt lange des von dem Sprecher ge- 
sprochenen Satzes oder Schliisselwortes abhangt. Die Entschei- 
dung uber den Sprecher wird aus den Wahrscheinlichkeiten oder 
Wahrscheinlichkeitsdichten (zusammen als Wahrscheinlichkeits- 
scores bezeichneten) getroffen, dafi die Vektoren der Abtast- 
werte x(/) / = 1.JV der Klasse sp / zugehoren. Das statistisch op- 
timale Entscheidungsschema wahlt die Klasse sp f mit dem 
hochsten Wahrscheinlichkeitswert bei gegebenen x(/)// = LJV, 
D.h. der Vektor x(/) wird der Klasse spj zugeordnet, fur die: 

p(x(l)..Jc(AO|sp y )>p(x(l)..j((/V)|sp / ) fur alley */ 

Sprecherverif ikation 



Stimme des Sprechers 



Stinnnt die Sprechers stimme mit der vorgegebenen Identitat zusammen? 

i 

Identitat des Sprechers 



Bild 3. Problem der Sprecherverif ikation 
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Problem der Sprecherverifikation besteht darin, die vorgege- 
bene Identitat des Sprechers anhand seiner Stimme zu uberpru- 
5 fen. Dies entspricht der auf dem Bild 3. abgebildeten Situa- 
tion. 

Der Prozefl der Sprecherverif ikation verlauft auf ahnliche 
Weise wie der bei der Sprecheridentif ikation, d.h. es wird 
ebenfalls die Segmentierung des gesprochenen Satzes durchge- 
10 fuhrt. Danach wird jedoch keine Klassif izierung der Stimme 
gemacht, sondern fur die vorgegebene Sprecher identitat ein 
Wahrscheinlichkeitsscore berechnet und mit einer Schwelle 
verglichen. Die Identitat des Sprechers wird also anhand sei- 
ner Stimme bestatigt, wenn: 



wobei spj der vorgegebenen Sprecheridentitat entspricht. Die 
Schwelle muB entsprechend tioch gesetzt werden, um die Situa- 
20 tion zu vermeiden, in der ein Sprecher mit einer anderer I- 
dentitat als die vorgegebene zugelassen/autorisiert wird. 

LPAS Kodierer 

Die heute eingesetzten Sprachkodierverf ahren basieren vorwie- 
25 gend auf dem Analyse-durch-Synthese Verf ahren mit einem LPC- 
. Synthesef ilter [2] . Die Sprachkodierung wird in diesen Ver- 
fahren durch Wiederholung der Kodierungs- und Dekodierungs- 
Operationen solange optimiert, bis der optimale Parametersatz 
ftlr den gegebenen Sprachabschnitt gefunden wird. 



15 



p(x(l).jc(A0 1 spy) > schwelle 




error 



30 



Bild 4 : Schema eines LPAS Kodierers 
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Einer der am meisten verwendeten Typen des LPAS Kodierers ist 
der CELP Kodierer. Eine relativ neue Entwicklung ist der Har- 
monic Vector Excited Codec mit einer besonders fur die be- 
schriebene Aufgabe geeigneter Form der Anregungssignale. Syn- 
5 thesemodell eines CELP Kodierers ist in Bild 4 dargestellt. 
Das Synthesemodell definiert die Methode der Berechnung des 
synthetisierten Sprachsignals aus den quantisierten Parame- 
tern des Sprachsignals. Im allgemeinen besitzt jeder LPAS Ko- 
dierer Parametergruppen: 

10 

• Kurzzeitpradiktorparameter * Die Kurzzeitpradiktorparameter 
werden in der Regel mit Hilfe klassischer LPC Analyse be- 
rechnet, wobei die Korrelations-Methode oder die Kovari- 
anz-Methode der Linear en Pradiktion angewendet wird [3] . 

15 Fur Signalrahmen der Lange von 20 bis 30 ms und eine Ab- 

tastrate von 8kHz werden 8-10 LPC Koef f izienten verwendet. 
Die Kurzzeitpradiktorparameter kdnnen in verschiedenen 
Formen (z.B. die Ref lexionskoef f izienten oder als Line 
Spectrum Frequencies LSF) auftreten, abhangig davon, wel- 

20 che Darstellung sich besser quantisieren laBt. Es hat sich 

gezeigt, dafi die LSF Koef f izienten am besten zur Quanti- 
sierung geeignet sind und diese Form der Pradiktionskoef- 
f izienten wird in der Regel verwendet. Die Kuzrzeitpradik- 
torparameter werden in einer open-loop Prozedur berechnet, 

25 d.h, ohne der auf dem Bild 1 dargestellten gesamten Opti- 

mierung mit den anderen Parametern bezuglich des Synthese- 
fehlers. 

• Langzeitpradiktorparameter • Langzeitpradiktorparameter 
30 werden in einem Filter verwendet, der die Grundf requenz 

des Sprachsignals synthetisiert . Es wird am meisten ein 
Langzeitpradiktor mit einem Filterkoef f izient und einem 
Parameter fur die Grundperiode des Sprachsignals. Ein 
Langzeitpradiktor mit den Parametern b = [b,N\ ist ein Teil 
35 der Abb. 2. Die Langzeitpradiktorparameter werden eben- 

falls in einer open-loop Prozedur berechnej: ohne eine Ge- 
samtoptimierung mit den anderen Parametern, In manchen Ko- 
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dierern wird manchiaal eine verfeinerte Suche nach den 
Langzeitpradiktorparametern in einer closed-loop Prozedur 
durchgefiihrt. 

Die Parameter der Anregung. In einem CELP Kodierer werden 
die 5-10ms Subrahmen des Restsignals in einer closed-loop 
Prozedur vektorquantisiert . Die gesendeten Parameter er- 
moglichen auf der Dekoderseite die Wiederherstellung der 
Signalformen aus dem gespeicherten Codebuch. 



codebook of the 
excitation vectors 



code- 
vector 
index / 



observed speech signal 

*(0, 



gain codebook 



L bz-N J 







synthesized 










1=1 




speech signal 



Long-Tcm>-Prodictar Short-Taro-Prcdiclor 

Bild 5.: Synthese-Modell eines CELP Kodierers 

In einem HVXC Codecs wird der Ausgang aus dem LPC Analyse 
Filter in die Frequenzdomane transformieft und die grund- 
periodennormalisierte Spektraleinhiillende vektorquanti- 
siert. 



Spreche rerkennung mit den Parametern eines LPAS Kodierers 
Die Parameter eines Sprachkodierers beschreiben ausfuhrlich 
die moglichen Sprachsignale mit einer wesentlich reduzierten 
Anzahl der Parameter im Vergleich zur Darstellung des Sprach- 
signals als eine Sequenz der Abtastwerte. 

Die Dekomposition des Sprachsignals in die erwahnten Parame- 
tergruppen kann auf verschiedene Weise zur Sprechererkennung 
verwendet werden. Die Methoden zur Berechnung der Parameter 
und Synthese des Sprachsignals implizieren die Methoden der 
Schatzung der Wahrscheinlichkeitsdichten (bzw. der Wahr- 
scheinlichkeiten fur die Parameter, die als diskrete Wahr- 
scheinlichkeitsvariablen betrachtet werden) . Die in einer 
closed-loop Prozedur bestimmt werden, sollen eigentlich als 
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diskrete Wahrscheinlichkeitsvariablen betrachtet werden, weil 
es nicht moglich ist, fiir solche Parameter die Volumen der 
Parameterraumesregionen des Vektorquantizierers zu verbinden. 
Dies betrifft insbesondere die Anregungsparameter . Die Schat- 
zung der Wahrscheinlichkeitsverteilungen ftir solche Parameter 
wird durch die Berechnung von relativen Haufigkeiten der Pa- 
rameter/ Code vektoren im Trainingsatz bestimmt. 
Die in einer open-loop Prozedur im Kodierer berechnet werden, 
sind zuerst in einer nichtquantisierten Form verfUgbar und 
dann erst quantisiert, wobei in der Regel die Vektorquanti- 
sierung verwendet wird. Fur solche Parameter konnen die Wahr- 
scheinlichkeitsdichten aus dem Trainingssatz geschatzt wer- 
den. Diese'r Ansatz wird vor allem fiir die Kurzzeitpradiktor- 
parameter angewendet. 

Die Schatzung der Wahrscheinlichkeitsdichten basiert auf der 
Histogramm Methode [6]. Diese Methode benStigt die Kenntnisse 
der Volumen der mit den quantisierten Punkten verbundenen Re- 
gionen des Parameterraumes . 

Eine Methode der Speicherung von Wahrscheinlichkeitverteiiun- 
gen ergibt sich, wenn die moglichen Codevektoren fiir die 
Sprachsignalparameter einmal fur die ganze Population gespei- 
chert werden, was dem Fall entspricht, dafi die Quantisie- 
rungsstufen/Codevektoren aus der Datenbank bestimmt, die die 
Aufzeichnungen von vielen Sprechern beinhaltet, einmal be- 
stimmt werden. Die Wahrscheinlichkeitsverteilungen der Para- 
meter ftir die Sprecher werden dann zusammen mit den Indizien 
der Codevektoren ftir die Parameter im System gespeichert. Sie 
eignet sich ftir grofie Systeme mit sehr vielen Anwendern (ATM, 
Zugangssysteme in Betrieben) . 
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Wahrscheinlich- 
keitsverteilungen 
der kodierten Pa- 
rameter fiir den 
Sprecher 1 
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Wahr s che i nl i ch- 
keitsverteilungen 
der kodierten Para- 
meter ftir den Spre- 
cher M 



Stimme des Sprecher s 



Kodierungsoperation 
open-loop, closed-loop 
Parameterberechnung 



kodierte 
Parameter 



Entscheidung 
iiber den 
Sprecher 



Identitat des 
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Bild 6. Sprecheridentif ikation mit den Parameter eines LPAS Kodierers 
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Eine andere Methode ergibt sich, wenn die Codevektoren ftlr 
die Parameter ftlr jeden Sprecher einzeln trainiert werden. 
Die Codevektoren werden dann zusammen mit den Werten der 
Wahrscheinlichkeitsdichten an den durch die Codevektoren be- 
5 stimmten Punkten des Parameterraumes gespeichert. Ein Schema 
dieser Methode ist auf dem Bild. 7 gezeigt. Diese Methode ist 
ftlr eine kleine Anzahl von Sprechern bestimmt (z.B. ftlr eine 
mit der Stimme gesteuerte Ttlr in der Wohnung) 



Stimme des Sprechers 



Berechnung der nicht quant i- 
sierten Parameter in einer 
open - loop Prozedur 
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Parameterquantl- 
sienmg und Be- 
rechnung der Wahr- 
s cfaeinlichkeits 
scores 




Parameterquantl- 
sierung und Be- 
rechnung der Wahr- 
scheinllchkeits 



scores 



Wahrscheinlichkeits- 
vertellungen und die 
Codevektoren von den 
Parameter*! fur den 



iiahrscheinlichkelts- 
vertellungen und die 
Codevektoren von den 
Parametera fur den 
Sprecher M 



Sprecher 1 



Entscheidung 



Bild 7. Sprecheridentifikation mit den Parametem ein s LPAS Kodierers 
Wahrscheinlichkeitsdichten werden zusammen mit den Codevekt ren ftlr die Pa- 
rameter gespeichert 
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^ I den ti tat des Sprechers 

Trainingsphase eines Sprechererkennungssystems 
Die Wahrscheinlichkeitsdichteverteilungen fur die Sprecher- 
klassen werden aus dem Trainingsmaterial geschatzt. Fur die 
textabhangige Sprechererkennung (Sprecheridentif ikati- 
on/Sprecherverifikation) wird ein bestimmter Satz oder 
Schliisselwort wahrend der Trainingphase so lange wiederholt 
bis die Sprechererkennung sicher f unktioniert . 
Fur die textunabhangige Sprecherverif ikation muB ein phone- 
tisch ausgewogenes Sprachmaterial aufgenommen werden. Auch in 
diesem Fall mufi die Trainingphase solange wiederholt werden 
bis die Sprecheridentif ikation/verif ikation sicher funktio- 
niert. 

Das wahrend der Trainingphase auf genommene Material wird zum 
Training mehrmals jeweils phasenverschoben verwendet, um das 
Sprechererkennungssystem unabhangig von der Anfangsphase der 
aufgezeichneten Stimmen zu machen. Die zum Training verwende- 
ten Daten wird als Trainingsatz TS^. bezeichnet, wobei sp, 

den Sprecher. symbolisiert . 

Schatzung der Wahrscheinlichkeitsdichten 

Um die erf indungsgemafie Methode zur Schatzung der Wahrschein- 
lichkeitsdichten der Parameter fiir die Sprecherklassen zu be- 
schreiben, werden zuerst notwendige Definitionen eingefuhrt. 
Die eingeftihrte Abstraktion des Kodierungsprozesses hat den 
Vorteil, dafi die Schatzung der Wahrscheinlichkeitsdichten auf 
einfache Weise beschrieben werden kann, ohne auf die sehr 
komplizierten Operationen im Sprachkodierer in Details einzu- 
gehen. Eine detaillierte Beschreibung der Parameterberechung 
kann in [4] und [5] gefunden werden, 

Ein Sprachkodierer arbeitet in Auswerteintervallen. Fur jeden 
Signalrahmen werden in dem Sprachkodierer die im Abschnitt 
fiber LPAS Kodierer beschriebene Operationen durchgefuhrt, die 
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die Parameter des Sprachsignals fur den jeweiligen Rahmen 
liefern. 

Berechnung eines nicht quantisierten Parametervektors p aus 
dem Signal rahmen x in einer open-loop Oprimierungprozedur 
wird als p = K p (x) geschrieben. Die Quant is ierung des Parame- 
ters wird als: p = Q p (p) bezeichnet. Die Region iro Parameter- 
raum der Parameter p, der .im Kodierungsprozess auf den Code- 
vektor p abgebildet wird, wird als S p = {p:Q p (p) = p> bezeichnet. 
Das Volumen von dieser Region wird als V(S § ) bezeichnet. 
Der Satz moglicher Codevektoren fur den Parameter p wird als 
C p ={p ( -;/' = l.JV p } geschrieben mit N p Anzahl von Codevektoren. Der 
Satz von Regionen, die mit den Codevektoren verbunden sind, 
wird als R p = {S,J = l.M p ) bezeichnet. Die Zugehorigkeitsfunktion 
einer Region S, wird als: 

Si ™ jofurpeS,. 

bezeichnet. 

Die Haufigkeit des Vorkommens eines Parameters im Trainings- 
satz wird mit 

y _ AnzaM von Parametenverten aus dem Training SatzTS^ die in die Region S k fallen 
Anzahl von Parametenverten aus dem Training Satz TS 

° Spj 

berechnet . 

Die geschatzte Wahrscheinlichkeitsdichteverteilung wird dann 



zu: 



*Pl*P/) = Zls>)T|h 

SchStzung der Wahrscheinlichkeiten 

Fur die Parameter, die als eine diskrete Wahrscheinlichkeits- 
variable betrachtet werden, d.h vor allem die Anregung aus 
dem Codebuch, die in einer closed-loop Prozedur optimiert 
wird und die Grundperiode des Sprachsignals, werden die Wahr- 
scheinlichkeitsfunktionen (probability mass functions) ge- 
schatzt. Diese werden als die Haufigkeiten der gegebenen Pa- 
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rametercode im Trainingssatz fiir den jeweiligen Sprecher be- 
stimmt . 



5 Speichern der Wahrscheinlichkeitsverteilungen 

Die Sprachparameter in einem Sprachkodierer werden nicht alle 
gleichzeitig sondern nacheinander berechnet. Es werden z.B. 
zuerst die Kurzzeitpradiktorparameter berechnet ixnd dann fur 
bereits bekannte Kurzzeitpradiktorparameter die restlichen 
10 Parameter beziiglich der Synthese oder des Pradiktionsf ehlers 
optimiert. Dies ermoglicht effektives Speichern der Wahr- 
scheinlichkeitsverteilungen als bedingte Wahrscheinlichkeiten 
der Codevektoren in einer Baumstruktur . Dies ist moglich dank 
folgender Abhangigkeit : 



15 



PGPk.Pl.P* I«P/) = P(Pk \spi)fXP L I*P/.Pk)P(Pa I^P/.Pk.Pl) 



Pk ~ Vektor von Kurzzeitparameter 
Pl " Vektor von Langzeitparameter 
20 p A - Vektor von Anregungsparameter 

Eine wesentliche Vereinf achung ergibt sich, wenn die Sprach- 
parameter innerhalb eines Signalrahmens als statistisch unab- 
hangig angenommen werden konnen. Die obige Formel wird dann 
25 zu: 

P(Pk<PuP* \sPi) = P(Pk I SPMPl I $P,)P(Pa I *P) 

Die Wahrscheinlichkeitsdichten mtissen im System an sehr vie- 
30 len Punkten im Paraimeterraum gespeichert werden. Die zum 

Speichern von Wahrscheinlichkeitsdichten verwendete Bitanzahl 
ist ftir die Komplexitat des Gesamtsystems kritisch. Fur die 
Wahrscheinlichkeitswerte wird deswegen ein Vektorquantisierer 
verwendet. Dies ermoglicht die Reduzierung der zum Speichern 
35 der Wahrscheinlichkeitsverteilungen verwendeten Bitanzahl. 
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Systemsicherhei t 

Urn die Uberlistung des Systems zu verhindern, wird gleichzei- 
tig mit der Aufzeichnung der Stimme des Sprechers ein Rau- 
schen ausgestrahlt, das dem System bekannt ist und aus dem 
5 das digitalisierte Sprachsignal subtrahiert wird. 

5. 

Die Erfindung kann fur Anwendungen der Zutrittskontrolle, wie 
z.B. die mit der Stimme gesteuerte Tiir, oder als Verifikati- 
10 on, beispielsweise fur Bankzugangssysteme genutzt werden. Die 
Prozedur kann als ein Programmodul auf einem . Prozessor imple- 
mentiert werden, der die Aufgabe der Sprechererkennung im 
System realisiert. 

15 fl] S.Furui, „Recent advances in speaker recognition 1 *, Pat- 
tern Recognition Letters, Tokyo Inst, of Technol., 1997 
[2] P.Vary, U.Heute, W.Hess, Digitale Sprachsignalverarbei- 
tung, B.G.Teubner Stuttgart, 1998 

[3] K.Kroschel, Statistische Nachrichtentheorie, 3 rd ed., 
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aufgeaeichnete Stimme des Sprechers -em 
bestimmtes SchlQssehvoit oder Satz fur die 
Tertabhangige Sprecherveiyfikation, 
ein beliebiges Tert fur die 
Texrunabhangige Sprecherveryfikation 



Segmentierung des Sprachsignals 
in die Signalrahmen von der 
Lanee 20-30ms 



10 



15 



berechne die nicht quantisierte 
Sprachparameter. Es werden die 
Kurzzeitpradiktorpara meter, die 
Langzeftpradiktorparametrund 
das Langzeitrestsignalberechnet 








vorgegebene Sprecheridentitat 








r 


Fur jeden Rah men berechne die 
Wahischemlichke its ss cores 
(W ahrschemlichkeiten oder 
Wahrschinlichkehsdichten) 


< 


Spiecherdaten 
Wahrscheinfichkeitsverteihing von 
Sprachp arameter 



20 



25 



Zusannnenfassung von 
W ahrscheinfichke its scores 
aus alien Signalrahmen. 
Es wird angenommen daB die 
Signalrahmen des Sprachsignals 
statistisch unabhangig sind 



Entscheidung ob die vorgegebene 
Identitat des Sprecheis und die 
Stimme des Sprechers 
fiberemstimmen 



Fig . 1 Sprecherveiyfikation mit Verwendung von den Parameter eine LPAS Kodierer 



30 
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Patentanspruche 

1. Verfahren zum Erkennen von Sprechern . anhand deren Stimmen 
mit folgenden Merkmalen: 
(a) in einer Vorbereitungsphase, 

(al) werden von M Sprechern jeweils k textabhangige oder 
textunabhangige Ref erenzsprachaufierungen, die einen sprecher- 
bezogenen Trainingssatz bilden, in erste Sprachsignalrahmen 
der Lange L segment iert, 

(a2) werden die ersten Sprachsignalrahmen einem auf linearer 
Pradiktion basierenden Analyse-durch-Synthese-Kodierer zuge- 
fuhrt, 

(a3) wird in dem Analyse-durch-Synthese-Kodierer fiir jeden 
der M Sprecher und jeweils jeden ersten Sprachsignalrahmen 
ein erster Kurzzeitpradiktorparameter, Langzeitpradiktorpara- 
meter und/oder Anregungsparameter des Kodierers berechnet, 
wobei die Parameter dann ein sprecherbezogenes Trainingsmate- 
rial bilden, 

(a4) wird in dem Analyse-durch-Synthese-Kodierer flir jeden 
der M Sprecher und jeweils jeden ersten Sprachsignalrahmen 
die Haufigkeit des jeweiligen Vorkommens des ersten Kurz- 
zeitpradiktorparameters, Langzeitpradiktorparameters und/oder 
Anregungsparameters des Kodierers in dem sprecherbezogenen 
Trainingssatz bzw. die Wahrscheinlichkeitsdichten, mit der 
der erste Kurzzeitpradiktorparameter, Langzeitpradiktorpara- 
meter und/oder Anregungsparameter in dem sprecherbezogenen 
Trainingssatz enthalten ist, berechnet, 

(a5) werden die berechneten Haufigkeiten bzw. Wahrscheinlich- 
keitsdichten sprecherbezogen als Sprecherdaten gespeichert, 
(b) in einer simulierten Nutzungsphase der Trainingsphase, 
(bl) wird eine textabhangige oder textunabhangige Simulati- 
ons sprachaufie rung eines m-ten Sprechers mit m=l..M in zweite 
Sprachsignalrahmen der Lange L segmentiert, 

(b2) werden die zweiten Sprachsignalrahmen dem Analyse-durch- 
Synthese-Kodierer zugefuhrt, 

(b3) wird in dem Analyse-durch-Synthese-Kodierer ftir den m- 
ten Sprecher vmd jeweils jeden zweiten Sprachsignalrahmen ein 
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zweiter Kurzzeitpradiktorparameter, Langzeitpradiktorparame- 
ter und/oder Anregungsparameter des Kodierers berechnet, 
(b4) werden fur jeden zweiten Sprachsignalrahmen aus dem be- 
rechneten zweiten Kurzzeitpradiktorparameter, Langzeitpradik- 
torparameter und/oder Anregungsparameter und den fur den m- 
ten Sprecher in der Vorbereitungsphase gespeicherten Spre- 
cherdaten erste Wahrscheinlichkeitstref f er berechnet, die an- 
geben, mit welcher Wahrscheinlichkeit der zweite Kurzzeitpra- 
diktorparameter, Langzeitpradiktorparameter und/oder Anre- 
gungsparameter mit dem ersten Kurzzeitpradiktorparameter, 
Langzeitpradiktorparameter und/oder Anregungsparameter iiber- 
einstimmt, 

(b5) werden die ersten Wahrscheinlichkeitsscores aus alien 
zweiten Sprachsignalrahmen zusammengef aBt, 
(b6) wird uberprtift, ob die zusammengef aBten ersten Wahr- 
scheinlichkeitsscores groBer einer vorgegebenen ersten 
Schwelle sind, die Stimme des m-ten Sprecher s bestatigt, wenn 
die zusammengef aBten ersten Wahrscheinlichkeitsscores groBer 
als die vorgegebene erste Schwelle sind oder die Vorberei- 
tungsphase solange fur weitere i ReferenzsprachauBerungen des 
m-ten Sprechers durchgeftihrt, bis die Stimme des m-ten Spre- 
chers bestatigt wird, wenn die zusammengef aBten ersten Wahr- 
scheinlichkeitsscores kleiner gleich oder kleiner der vorge- 
gebenen ersten Schwelle sind, 
(c) in einer Nutzungsphase 

(cl) wird eine textabhangige oder textunabhangige Nutzsprach- 
auBerung des m-ten Sprechers mit m=l.. M in dritte Sprachsig- 
nalrahmen der Lange L segment iert, 

(c2) werden die dritten Sprachsignalrahmen dem Analyse-durch- 
Synthese-Kodierer zugefiihrt, 

(c3) wird in dem Analyse-durch-Synthese-Kodierer fur den Ea- 
ten Sprecher und jeweils jeden dritten Sprachsignalrahmen ein 
dritter Kurzzeitpradiktorparameter, Langzeitpradiktorparame- 
ter und/oder Anregungsparameter des Kodierers berechnet, 
(c4) werden fur jeden dritten Sprachsignalrahmen aus dem be- 
rechneten dritten Kurzzeitpradiktorparameter , Langzeitpradik- 
torparameter und/oder Anregungsparameter und den fur den m- 
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ten Sprecher in der Vorbereitungsphase gespeicherten Spre- 
cherdaten zweite Wahrscheinlichkeitstref f er berechnet, die 
angeben, mit welcher Wahrscheinlichkeit der dritte Kurz- 
zeitpradiktorparameter, Langzeitpradiktorparameter und/oder 
5 Anregungsparameter von dem m-ten Sprecher ausgesprochen wur- 
de, 

(c5) werden die zweiten Wahrscheinlichkeitstref fer aus alien 

dritten Sprachsignalrahmen zusammengefaBt, 

(c6) wird iiberpriift, ob die zusammengef aBten zweiten Wahr- 

10 scheinlichkeitsscores grofier einer vorgegebenen zweiten 

Schwelle sind, die Stimme des m-ten Sprechers wird erkannt, 
wenn die zusammengef aBten zweiten Wahrscheinlichkeitstref fer 
grofier der vorgegebenen zweiten Schwelle sind oder die Stimme 
des m-ten Sprechers wird nicht erkannt, wenn die zusammenge- 

15 fafiten zweiten Wahrscheinlichkeitsscores kleiner gleich oder 
kleiner der vorgegebenen zweiten Schwelle sind, 

2 . Ver f ahren nach Anspruch 1, dadurch gekennzeich- 
n e t , daB 

20 als ein parametrischer Kodierer, insbesondere. ein "Harmonic 
Vector Excited Predictive" -Kodierer oder ein * Waveform Inter- 
polating" -Kodierer verwendet wird. 

3 . Verf ahren nach Anspruch 1 , dadurch gekennzeich- 
25 net, daB 

als Analyse-durch-Synthese-Kodierer ein auf linearer Pradik- 
tion basierender Kodierer, insbesondere ein LPAS-Kodierer be- 
nutzt wird. 

30 4. Verf ahren nach einem der Ansprilche 1 bis 3, dadurch 
gekennzeichnet, daB 

die Haufigkeiten bzw, Wahrscheinlichkeitsdichten mit einem 
Vektorquantisierer mit einer bestimmten, wesentlich reduzier- 
ten Bitanzahl quantisiert werden. 

35 

5. Verf ahren nach einem der Ansprilche 1 bis 4, dadurch 
gekennzeichnet, daB 
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mit der Eingabe der SprachauBerung des Sprechers in das Spre- 
chererkennungs system ein dem Sprechererkennungssystem bekann- 
tes Rauschen mit eingegeben wird. 

5 6. Verfahren nach einem der Ansprtiche 1 bis 5, dadurch 
gekennzeichnet , daB 

das miteingegebene Rauschen intern vor der Segmentierung von 
der Aufnahme der Sprechers timme subtrahiert wird. 
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Vorbereitungsgphase des 
(Verlauf fur 

Training eines 
Textunabhangigen Systems 



Aufnahme eines vielfaeltigen 
phonetisch ausgewogenen 
Materials von dem j-ten, 
j=l-.M Systemanwender. Eine 
relativ grosse Anzahl 1..K der 
Referenzsprachaufiserungen 



Sprechererkennugnssys «-<=»nig ★ 
Sprecher j) 

Training eines 
textabhaengigen Systems 



Bestimmte Wortsequenz, ein 
Satz oder Schluesselwort . 
Entsprechende Anzahl 1..K der 
ReferenzsprachauBerungen dem 
j-ten, j=l..M Systemanwender- 



Segmentierung des Trainingmaterials in 
die Signalrahmen x(l)...x(N) mit N 
Abhaengig von der Gesamtlaenge der 
Sprachaufierungen. x(i) = [x(l) . . ,x(L) ] 
mit L - Lange des Signalrahmens . 



Grosse Anzahl 
von Sprechern >10 



Sprachdatenbank 
Mehrere Stunden 
an Aufnahmen von 
verschiedenen 
Sprecher 



Training der sprecherunabhangigen 
CodebUcher fur die Kurzzeitparameter 
mit Hilfe des K-means Algorithmus Cb K 
= [C K1 €R P , i=l. .L K ] , L K - Anzahl der 
Codebucheintraegen. p = 8.. 10 Lange 
des LSF Codevektors. 



T 



© 



Training der sprecherunabhangigen 
CodebUcher ftir die 
Anregungsparameter. Codebucher der 
grundperiodenormalisierten 
Spektralformen des LPC Restsignal 
Cb K = [Cai€R p , i=l..L A ], (L A - Anzahl 
der Codevektoren, p = 44 Lange des 
Codevektors) . Parameter in gleicher 
Form wie in dem HVXC Codec. 



* Der im folgenden def ienierter Prozess wird, ftir jeden neuen Nutzer des 
Sprechererkennungssystems durchgeftihrt. Der Ziel der Vorbereitungsphase ist 
die Erstellung der Sprecherdaten ftir jeden der M Sprecher. 
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Kleine Anzahl 
von Sprechern <10 



0 



Die Codebucher sind 
trainiert fiir jeden der 
M Sprecher mit dem von 
dem jeweiligen Sprecher 
aufgenomenen Material 



draining der sprecherunabhangigen 
lodebUcher for die Kurzzeitparameter 
lit Hilfe des K-means Algorithmus Cb K 
= tC K1 €R p , i=l..N K ], N K - Anzahl der 
:odebucheintraegen. p = 8.. 10 Lange 
les LSF Codevektors. 



0 
0 1.1 



0 



Training der sprecherunabhangigen 
Codebucher far die 
Anregungsparameter. Codebucher der 
grundperiodenormalisierten 
Spraktralformen des LPC Restsignal 
Cb K - [C^eR*, i=l..N A ], (N A -.Anzahl 
der Codebvektoren, p = 44 L£nge des 
harmonischen Codevektors) . Parameter 
in gleicher Form wie in dem HVXC 
Codec. 



-Berechnung der Sprachparameter. fur 
die.Trainingsets fur jeden Sprecher 
nach dem. Schema eines HVXC Codecs* 



Berechnung der 
Kurzzeitparameter fUr 
jeden Signalrahmen 
9k(±), i = 1..N 
Trainingset fur die 
Kurzzeitparameter wird 
fur den jeweiligen 
Sprecher gebildet: 
TSK^PkU), i = i_ N > 
j=l..M 



Berechnung der 
Langzeitparameter fur 
jeden Signalrahmen 
PlU), i = 1, .N 
Trainingset fur die 
Langzeitparameter wird 
fUr den jeweiligen 
Sprecher gebildet: 
TSLj={p L (i) , i = 1..N} 



; 0 



Berechnung der 
Anregungsparameter fur 
jeden Signalrahmen 
P*(i), i = 1..N 
Sprachgrundperiodenorm 
alisierte 

Spektralformen des 
LPC-Restsignals 
Trainingset fur die 
Kurzzeitparameter wird 
fUr den jeweiligen 
Sprecher gebildet: 
TSAj={p*<i), i = 1..N) 



+ 0 



0 



Coiing IEC 14496 " 3 Information Technology - Very Low Bitrate Audio-Visual 
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Berechnung der Volumen der 
Voronoizellenregionen fur die 
Warscheinlichkeitsdichteschatzug 
fur die Kurzzeitpradiktorparameter 



© 0 



© 



Berechnung der Volumen der 


Vektorquantisiererzelien 


S,a={xeR p : |C Ki - 


x|<|C K3 - x\, i#j} 




V(S Ki ) 



Berechnung der Haufigkeiten der 
Kurzzeitparameter 

) 

j _ Anzahl der Codevektoren C Kl die in demTSKj enthahen and 
Ca Anzahl alien Codevektoren in dem TSK 



Berechnung der Wahrscheinlikeitsdichten der 
Kurzzeitpraediktorparameter: 

p(p, [Sprecher^^ £i,^ Pa0 -^ 

,=i ^Wa'/J 
|Cb K | - Anzahl der Codevektoren im Codebuch Cb K 



0 (p.)={o 



lfiirpeS^ 
furpeS^ 



Zugehorigkeitsfunktion des Regions S Ki 

j. : 



Speichern der Wahrscheinlichkeiten 
der Kurzzeitpradiktorparameter fur 
eine grofie Anzahl von Sprechern 



Codevektor 
indiz 1 


Wahr s che inl i ke i t sdi c 
htewert 1 






Codevektor 
indiz J 


Wahrscheinlikeitsdic 
htewert 1 



J - Anzahl der Voronoizellen mit 
der Wahrscheinlichkeit ungleich 
Null. 



Speichern der Wahrscheinlichkeiten der 
Kurzzeitpradiktorparameter fiir eine 
kleine Anzahl von Sprechern 



Codevektor 1 


Wahrscheinlikeitsdichte 




wert 1 






Codevektor I 


Wahrscheinlikeitsdichte 




wert I 



I - Anzahl der Codevektoren im Codebuch 
der Kruzzeitpradiktorparameter des 
Sprechers j 
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0 



Berechnung der Haufigkeiten 
der Langzeitpradiktorparameter 
fUr den Sprecher j 
im Trainingset TSLj 



Speichern der 

Wahrscheinlikeitsverteilungen der 
Langzeipradiktorparameter . Diese 
Wahrscheinlikeitsverteilungen 
werden auf gleiche Weise 
gespeichert, unabhaengig von der 
Anzahl der Sprecher 



Sprachgrundp 
eriodewert 1 


Haufigkeit 1 






Sprachgrundp 
eriodewert D 


Haufigkeit D 



I 



j: 



Speichern der Wahrscheinlichkeiten 
der Anregungsparameter fur eine 
grafie Anzahl von Sprecher 



Code vek tor 
indiz 1 


Wahrscheinlikeitswert 1 






Codevektor 
indiz D 


Wahrscheinlikeitswert D 



D - Anzahl der Anregungs- 
codevektoren mit Wahrscheinlichkeit 
unaleich Null, 



i© 



0 



Berechnung der Haufigkeiten 
der Anregungsparameter fur den 
Sprecher j im Trainingset TSA, 



Speichern der Wahrscheinlichkeiten der 
Anregungsparameter fur eine kleine 
Anzahl von Sprecher 



Codevektor 1 


Wahrscheinlikeitswert 1 j 




i 


Codevektor L A 


Wahrscheinlikeitswert L A 1 



L A - Anzahl der Codevektoren im Codebuch 
der Kruzzeitpradiktorparameter des 
Sprechers j 
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Simulierte Nutzungsphase 
Training des Systems fur den Spracher j 



Aufforderung zur 
Aufnahme der K+l 
TestsprachauSerung 



Simuliertenutzungsphase fur 
ein Textunabhangiges system 



Aufnahme einer beliebigen K+l- 
te SprachauBerung von dem j- 
ten Systemanwender . 



Simuliertenutzungsphase fur 
ein Textunabhangigessystem 



\ 



Bestimmte Wortsequenz, ein 
Satz oder Schluesselwort. 
K+l-te Sprachaufierung von dem 
j-ten Systemanwender. 



T 



a,© 



Segmentierung der TestsprachauSerung 

in die Signalrahmen x(l) x(N) mit N 

abhangig von der Gesamtlange der 
TestauBerung. x(i) = [x ( 1 ) . . „x (L) ] mit L 
- Lange des Signalrahmens. 



©,,© 

v 



Berechnung der Sprachparameter f Or. die TestsprachauSerung 



Berechnung der 
Kurzzeitparameter fiir 
jeden Signalrahmen 
PkU) , i = 1. .N 
Trainingset fur die 
Kurzzeitparameter wird 
fur den jeweiligen 
Sprecher gebildet: 
TSK^fpsd), i = 1..N) 
j=l. .M 



Berechnung der 
Langzeitparameter ftir 
jeden Signalrahmen 
Pt(i) , i = l. .N 
Trainingset fiir die 
Langzeitparameter wird 
fiir den jeweiligen 
Sprecher gebildet: 
TSL^fptU), i = 1...N) 



; © 



Berechnung der 
Anregungsparameter fur 
jeden Signalrahmen 
Pfc(i), i = 1..N 
Sprachgrundperiodenorm 
alisierte 

Spektraleformen des 
LPC-Restsignals 
Trainingset ftir die 
Kurzzeitparameter wird 
fiir den jeweiligen 
Sprecher gebildet: 
TSA5={p*(i) , i = 1..N} 



T 



©• 



WO 01/15141 



6 / 13 



PO7DE00/02917 



© 



© 



© 



Berechnung fUr die 
Kurzzeitparameter 
Pn(i) , i = 1 . • N in 
jeclem Rahmen der 
Wahrscheinlikeit 
P<PkU) ISprecher j) 



Berechnung ftir die 
Kurzzeitparameter p^i), 
i = 1 N in jedem 
Rahmen der 
Wahr s cheinl i ke i t 
p(PL(i) ISprecher j) 



V ^7DE 0 0 / 0 29 1 7 

© 




Berechnung fur die 
Kurzzeitparameter p*(i), 
i = 1 . . N in j edem 
Rahmen der 
Wahrscheinlikeit 
p(p*(i) ISprecher j) 



Berechnung der Wahrscheinlikeitsscores fur jeden Signalrahmen: 
P(Pk<D, PlU), Pa (i) ISprecher j) = PkUJPlCDPaU) " 



Zusammenfassug der Ergebnissen aus alien Signalrahmen. 
Berechnung der Teststatistik WS = flp(PAO,PAO,P L (i)\Spredier j) 
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Wiederholung der 
Vorbereitungsphase des 
Sprechererkennungs system 



NEIN 



kein zusatzliches Training der 
Wahrscheinlichkeitsverteilungen nfitig. Die 
Wahrscheinlichkeitsverteilungen werden im System 
gespeichert und sind fertig ftir die Nutzungphase. 
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Nutzungsphase des Sprechererkennugns systems 
(Verlauf ftir den Sprecher j) 



textunabhangiges System 



textabhangiges System 



Aufnahme einer beliebigen 
Sprachaufierung 



Bestimmte Wortsequenz, ein 
Satz oder ein Schluesselwort 
(z.B. Name des Nutzers) . 



a,© 



Segmentierung der Sprachaufierung in 
die Signalrahmen x(l)...x(N) mit N 
abhangig von der Gesamtlange der 
Sprachaufierung. x(i)=[x (1) . . .x (L) ] mit 
L - Lange des Signalrahmens . 



Q, ,© 

V 



Berechnung der Sprachparameter ftir die Sprachaufierung 



Befechnung der 
Kurzzeitparameter fur 
jeden Signalrahmen 
PkU) , i = l. .N 
Trainingset fiir die 
Kurzzeitparameter wird 
ftir den jeweiligen 
Sprecher gebildet: 
TSKj=(p K (i) , i = 1..N} 
j=l. .M 



Berechnung der 
Langzeitparameter ftir 
jeden Signalrahmen 
PlU), i = 1..N 
Trainingset far die 
Langzeitparameter wird 
fur den jeweiligen 
Sprecher gebildet: 
TSL 3 ={pL<i) / i = 1 . „N} 



© 



Berechnung der 
Anregungsparameter ftir 
jeden Signalrahmen 
PaU) , i = 1..N 
Sprachgrundperiodenorm 
alisierte 

Spektraleformen des 
LPC-Restsignals 
Trainingset ftir die 
Kurzzeitparameter wird 
ftir den jeweiligen 
Sprecher gebildet: 
TSA 3 ={p*(i), i - 1..N} 



T 



© 



WO 01/15141 



9 / 13 



PCT/DE00/02917 



Wahrscheinlichkeitsverteiliingen 
der Sprachparameter fur den 
Sprecher 1 (in der Form 
abhangig von der Anzahl der 
S ys t emanwende r ) 



Wahrscheinlichkeitsverteiunge 
n fur die Kurzzeitparameter 



Wahrscheinlichkeitsverteiunge 
n ftir die Langzeitparameter 



Wahrscheinlichkeitsverteiunge 
n fur die Anregungsparameter 



Wahrscheinlichkeitsverteilungen 
der Sprachparameter ftir den 
Sprecher j (in der Form 
abhangig von der Anzahl der 
S y s t emanwende r ) 



Wahrscheinlichkeitsverteiunge 
n ftir die Kurzzeitparameter 



Wahrscheinlichkeitsverteiunge 
n fttr die Langzeitparameter 



© 



Wahrscheinlichkeitsverteiunge 
n fiir die Anregungsparameter 



bis zum Sprecher M 
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Spr echerver y f i ka t ion 
(^) Bi s zum Sprecher M 

- • • * • ♦ I 

< > 1 

\ ^ 1 Vorgegebene Identitat des Sprechers 



© 



© 



Berechnung far die 
Kurzzeitparameter 
PK(i) , i = 1 . . N in 
jedem Rahmen der 
der Wahrscheinlichkeit 
P(PK(i) I Sprecher j) 



Berechnung fur die 
Langzeitparameter pt(i), 
i - 1 N in jedem 
Rahmen der 
Wahrscheinlichkeit 
P(Pl(U I Sprecher j) 



Berechnung far die 
Anregungsparameter 
p*<i), i = 1 N in 
jedem Rahmen der 
Wahr s che inl i chke i t 
p(PA(i) I Sprecher j) 



Berechnung der Wahrscheinlichkeitsscores fiir jeden Signairahmen: 
P(Pk(D/ PlU), p*(i) ! Sprecher j) = PK{i)pt(i)px(i) 



Zusammenfassug der Ergebnissen aus alien Signairahmen. 
Berechnung der Teststatistik WS = ]Jp(p k Q\p a {0.9l(0& Sprecher j) 

i 
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Bestatigung der Sprecheridentitat 
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Bis zum Sprecheridentyfikation 
Sprecher M 



0 



Berechnung ftir die 
Kurzzeitparameter PkU), i 
= 1 . . N in jedem Rahmen 
der Wahrscheinlichkeiten 
p(PK(i) I Sprecher m) , 
m=l. .M 



Ergebnisse ftir jeden 
der M Sprecher 



© 



Berechnung ftir die 
Kurzzeitparameter ps{i), i 
= 1 . . N in jedem Rahmen 
der Wahrscheinlichkeiten 
P(PL(i) I Sprecher m) , 
m=l. .M 



Ergebnisse ftir jeden 
der M Sprecher 



Berechnung fur die 
Kurzzeitparameter p*(i), 
i = 1 .. N in jedem 
Rahmen der 
Wahrscheinlikeiten 
p(paw(i) I Sprecher m) , 
m=l. .M 



Ergebnisse ftir jeden 
der M Sprecher 



Berechnung der Wahrscheinlikeitsscores ftir jeden Signalrahmen: 
P(Pk(U, PlU), p*(i) I Sprecher m) « PK(i)Pi.(i)Pfc(i) fur jeden der 
M Sprecher m = 1..M 



I 



Zusammenfassug der Ergebnissen aus alien Signalrahmen. Berechnung der 
Teststatistik ^(m) = nKP i :(0 > P^('Xp i (0|Spredia-in) fur jeden der ; m=l..M Sprecher 
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PCT/DE00/02917 



i 

Bestimmung der Sprecheridentitat . 

Es wird Sprecher j gewahlt fUr den WS(J)>WS(i), j*i 

j 

Sprecheridentitat 



INTERNATIf JL SEARCH REPORT 



Intet application No 

PCT/DE 00/02917 



A. CLASSIRCATION OF SUBJECT MATTER 

IPC 7 G10L17/00 



AccoroSng to International Patent Classification (tPC) or to both national classification and IPC 



a FIELDS SEARCHED 



Minimum documentation searched (classification system followed by classification symbols) 

IPC 7 G10L 



Documentation searched other than minimum documentation to the extent that such documents are included in the fields searched 



Electronic data base consulted during the international search (name of data base and. where practical, search terms used) 

EPO-Internal , WPI Data, PAJ, INSPEC 



C. DOCUMENTS CONSIDERED TO BE RELEVANT 



Category* Citation of document, with indcatton, where appropriate, of the relevant passages 



Relevant to daim No. 



MOGAKI T ET AL: "Text-indicated speaker 
verification method using PSI-CELP 
parameters" 

SECURITY AND WATERMARKING OF MULTIMEDIA 
CONTENTS, SAN JOSE, CA, USA, 25-27 JAN. 
1999, 

vol. 3657, pages 184-193, XP000981232 
Proceedings of the SPIE - The 
International Society for Optical 
Engineering, 1999, SPIE-Int. Soc. Opt. 
Eng, USA 
ISSN: 0277-786X 
page 2 
figure 5 

-/- 



1,3-6 



HI 



Further documents am listed in the continuation of box C. 



Patent family members are listed in annex. 



° Special categories of cited documents : 

*A" document defining the general stale of the ait which is not 
considered to be of particular relevance 

'E* earfier document but published on or after the international 
fQing date 

"L" document which may throw doubts on priority ctaim(s) or 
which is c&ed to estabfish the publication dale of another 
citation or other special reason (as specified) 

"O" document referring to an oral disclosure, use, exhfoftion or 
other means 

*P" document published prior to the crtternationa! fifing dale but 
later than the priority date claimed 



*T" later documenl published after the international filing date 
or priority date and not in conflict with the application but 
cited to understand the principle or theory underlying the 
invention 

"X" document of particular relevance; the claimed invention 
cannot be considered novel or cannot be considered to 
involve an inventive step when the document is taken alone 

*Y* document of particular relevance; the claimed invention 
cannot be considered to involve an inventive step when the 
document is combined with one or more other such docu- 
ments, such combination being obvious to a person skilled 
in the art 

"&* document member of the same patent family 



Date of the actual completion of the international search 



26 January 2001 



Date of mamng of the tntemattonal search report 

09/02/2001 



Name and maiing address ot the ISA 

European Patent Office, P.& 5818 Patent ban 2 
NL-2280HVR3swfk 
TeL (+31 -70) 340-2040. Tx 31 651 epo ni. 
Fax: (431-70) 340-3016 



Authorized officer 



Krembel, L 



FocmPCTASA/210 (second cheat) (JuV 1992) 



INTI ATIONAL SEARCH REPORT ( 



Us >nal AppQcatlon No 

PCT/DE 00/02917 



^Continuation) DOCUMENTS CONSIDERED TO BE RELEVANT 



Category* 



Citation of document with indication.wnere appropriate, of the relevant passages 



Relevant to claim No. 



EP 0 817 170 A (TELIA AB) 
7 January 1998 (1998-01-07) 
column 2, line 15 - line 22 
column 4, line 1 - line 15 

US 5 535 305 A (CHOW YEN-LU 
9 July 1996 (1996-07-09) 
column 1, line 6 - line 12 



1,3 



ET AL) 



BOLL S F: "SUPPRESSION OF ACOUSTIC NOISE 
IN SPEECH USING SPECTRAL SUBTRACTION- 
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND 
SIGNAL PROCESSING , US , IEEE INC. NEW YORK, 
vol. 27, no. 2, 1 April 1979 (1979-04-01), 
pages 113-120, XP000560467 
abstract 



5,6 



Fcrni PCT/lSA/210 (continuation at seoond shod) (July 1992) 



INTERNATie L SEARCH REPORT 

-iformation on patent family members 



Inter Application No 

PCT/DE 00/02917 



Patent document 
cited in search report 


Publication 
date 


Patent family 
member(s) 


Publication 
date 


EP 0817170 A 


07-01-1998 


SE 


505522 C 


08-09-1997 






US 


5960392 A 


28-09-1999 






NO 


972670 A 


02-01-1998 






SE 


9602622 A 


08-09-1997 



US 5535305 A 09-07-1996 NONE 



Fo<m PCT/ISA/210 (patent tart* amax) (Ao> ' «B) 



VERTRAG UBER DIE INTERNATIONALE ZUSAMMENARBEIT 
AUF DEM GEBIET DES PATENTWESENS 



Absender INTERNATIONALE RECHERCHENBEHORDE 



PCT 



An 

SIEMENS AKTIENG 
Postf ach 22 16 
80506 Munchen 
GERMANY 


ESELLSCHAFT 
34 

4L\ uCj VfVI Men P/Rl 
ang. 12. Feb. 2001 £ 


7 


MITTEILUNG UBER DIE UBERMITTLUNG DES 
INTERNATIONALEN RECHERCHENBERICHTS 
ODER DER ERKLARUNG 

(Regei 44.1 PCT) 


Ab sen dedatu m 

(TagMlonat/Jahr) 09/02/200 1 


Aktenzeichen des Anmelders Oder Anwalts 

1999P02665W0 


WE! TERES VORGEHEN siehe Punkte 1 und 4 unten 


Internationales Aktenzeichen 
PCT/DE 00/02917 


Internationales Anmeldedatum 
(TagMonaVJahr) 25/08/2000 


Anmelder 

SIEMENS AKTIENGESELLSCHAFT et al . 



1 . []£] Dem Anmelder wird mitgeteilt, daB der internationale Recherchenbericht erstellt wurde und ihm hiermit ubermittelt wird. 

Einreichung von Anderungen und einer Erklarung nach Artikel 19: 

Der Anmelder kann auf eigenen Wunsch die Anspruche der internationaten Anmeldung andern (siehe Regel 46): 

Bis wann sind Anderungen einzureichen? 

Die Frist zur Einreichung solcher Anderungen betrSgt iiblicherweise zwei Monate ab der Ubermittlung des 
internationalen Recherchenberichts; weitere Einzelheiten sind den Anmerkungen auf dem Beiblatt zu entnehmen. 

Wo sind Anderungen einzureichen? 

Unmittelbar beim Internationalen Buro der WIPO, 34, CHEMIN des Colombettes, CH-121 1 Genf 20, 
Telefaxnr.: (41-22) 740.14.35 

Nahere Hinweise sind den Anmerkungen auf dem Beiblatt zu entnehmen. 

2. Dem Anmelder wird mitgeteilt, daB kein international Recherchenbericht erstellt wird und dafB ihm hiermit die Erklarung nach 
Artikel 17(2)a) ubermittelt wird. 



3. 



I | Hinsichtlich des Widerspruchs gegen die Entrichtung einer zusatzlichen Gebtihr (zusatzJicher Gebuhren) nach Regel 40.2 wird 

' — ' dem Anmelder mitgeteilt, daB 

I I der Widerspruch und die Entscheidung hieriiber zusammen mit seinem Antrag auf Ubermittlung des Wortlauts sowohl des 
1 — 1 Widerspruchs als auch der Entscheidung hieriiber an die Bestimmungsamter dem Internationalen Buro ubermittelt worden 
sind. 

□ noch keine Entscheidung iiber den Widerspruch vorliegt; der Anmelder wird benachrichtigt, sobald eine Entscheidung 
getroffen wurde. 

Weiteres Vorgehen: Der Anmelder wird auf folgendes aufmerksam gemacht: 

Kurz nach Abtauf von 18 Monaten seit dem Priori tatsdatum wird die internationale Anmeldung vom Internationalen Buro vertJffent- 
licht. Will der Anmelder die Veroffentlichung verhindem Oder auf etnen spateren Zeitpunkt verschieben, so muB gemaB Regel 90 S 
bzw. 90r'!3 vor Abschluf3 der technischen Vorbereitungen fur die internationale VerOffentlichung eine Erklarung uber die Zuriicknah- 
me der internationalen Anmeldung Oder des Prioritatsanspruchs beim Internationalen Buro eingehen. 

Innerhalb von 19 Monaten seit dem Prioritatsdatum ist ein Antrag auf internationale vorlaufige Prufung^ einzureichen, wenn der 
Anmelder den Eintritt in die nationale Phase bis zu 30 Monaten seit dem Prioritatsdatum (in manchen Amtern sogar noch lang r) 
verschieben mdchte. 

Innerhalb von 20 Monaten seit dem Prioritatsdatum muB der Anmelder die fur den Eintritt in die nationale Phase vorgeschriebenen 
Handlungen vor alien Bestimmungsamtern vomehmen, die nicht innerhalb von 19 Monaten seit dem Prioritatsdatum in der 
Anmeldung oder einer nachtraglichen Auswahlerklarung ausgewahlt wurden Oder nicht ausgewahlt werden konnten, da fur sie 
Kapitel II des Vertrages nicht verbindiich ist 



Name und Postanschrift der Internationalen Recherchenbehcrde 

Europaisches Patentamt, P.B. 5818 Patentlaan 2 
NL-2280 HV Rijswijk 

Tel. (+31-70) 340-2040, Tx. 31 651 epo nl. 
Fax: (+31-70) 340-3016 



Bevollmachtigter Bediensteter 

Ahmed Soli man 



Formblatt PCT/ISA/220 (Juli 1998) 



(Siehe Anmerkungen auf Beiblatt) 



ANMERKUNGEN ZU FORMBLATT PCT/ISA/220 



Diese Anmerkungen sollen grundlegende Htnweiae zur Einreichung von Anderungen gem&B Artikel 1 9 geben. Diesen Anmerkungen 
liegen o5e Erforderntsse des Vertrags Ober die mtemationaJe Zusammenarbeit auf dem Gebiet des Patentwesena (PCT), der AusfQhrungs- 
ordnung und der VerwattungsrichtJinien zu diesem Vertrag zugrunde. Bei Abweichungen zwtachen diesen Anmerkungen und 
obengenannten Texten sind letztere maBgebend. Nahere Einzelheiten sind dem PCT-Leitfaden fur Anmelder, einer Vaioflerrttichtmg der 
WiPO, zu entnehmen. 

Die in dies en Anmerkungen verwendeten Beg riff e "Artiket*, "Roger und "Abschnitt' beziehen sich jeweils auf cfie Bestimmungen des 
PCT-Vertrags p der PCT-Ausfuhrungsordnung bzw. der PCT-Verwaltungsrichtlinien. 

hinweise zu Anderungen gemAss artikel 19 



Naeh Erhaft dee international en Recher ch enberichto hat der Anmelder die Moglichkeit, eirtmaJ cfie AnsprQohe der intemationaJen 
An m el dung zu an dem. E» est jedoeh zu betonen, daB, da alle Teile der intemationaJen Anmeldung (Anspruche, Beschreibung und 
Zeichnungen) wahrend dee intemationalen vorlaufigen PrQfungsverfahrens geandert warden konnen, normalerwebe keine NotwencSgkeit 
besteht, Anderungen der An Bp ruche naeh Artikel 19 einzureichen, auBer wenn der Anmefder z.B. zum Zwecke etnes vorlaufigen 
Schutzes die VeroffentKchung cfiesor Anspruche wQnscht oder ein anderer Grund fQreine An de rung der AnsprOche vor ihrer intemationa- 
len Vefoffentiichung voriiegt. Weiterhtn tat zu beachten, daB ein vort&ufiger Sehutz nur in etrbgen Staaten emaJtiioh »t 



Wei che Telle der Intemationalen Anmeldung konnen geandert warden? 

Im Rahmen von Artikel 19 konnen nur die Anspruche geandert werden. 

In der intemationalen Phase konnen die Anspruche auch naeh Artikel 34 vor der mit der intemationalen vorlaufigen PrQfung beauf- 
tragten Be horde geandert (oder nochmaJs geandert) werden. Die Beschreibung und die Zeichnungen konnen nur naeh Artikel 34 
vor der mit der intemationalen vorlaufigen PrQfung beauftragten Behorde geandert werden. 

Beim Eintritt in die nationale Phase konnen alle Teile der intemationalen Anmeldung naeh Artikel 28 oder gegebenenfalls Artikel 
41 geandert werden. 



Bis wann alnd Anderungen etnzureichen? 

Innerhalb von zwei Monaten ab der Obermrtttung des intemationalen Recherche nbenchts oder innerhatb von sechzehn Monaten ab 
dem Prioritatsdatum, j» naeh dem, welche Frist spater ablauft. Die Anderungen gotten jedoeh ais reohtzeitig eingereicht, wenn aie 
dem Intemationalen BOro naeh AW auf der maBgebenden Frist, aber noch vor AbschluB der tech nisc hen Vorbereitungen fQr die 
intemationale Veroffentiichung (Reg el 46.1) zugehen. 



Wo slnd die Anderungen nlcht etnzureichen? 

Die Anderungen konnen nur beim Intemationalen BOro, nicht aber beim Anmeldeamt oder der Intemationalen Re cherch en behorde 
eingereicht werden (Regel 46.2). 

Falls ein Antrag auf intemationale vorlaufige PrQfung eingereicht wurdeAvird, siehe unten. 

In watcher Form konnen Anderungen erf olgen? 

Eine Anderung kann erfolgen durch Streichung eines oder mehrerer ganzer AnsprOche, durch HirtzufOgung etnes oder m eh rarer 
neuer AnsprOche oder durch Anderung des Wortlauts eines oder mehrerer AnsprOche in der eingereicht en Fassung. 

FQr jedes Anspruchsbfatt, das sich aufgrund einer oder mehrerer Anderungen von dem ursprOnglich etngereiohten BJatt 
unterscheidet, ist ein Ersatzblatt einzureichen. 

Alle AnsprOche, de auf ein em Ersatzblatt erscheinen, sind mit arabisehen Ziffem zu numerieren. Wird ein Anspruch gestrichen, so 
brauchen, die anderen AnsprOche nicht neu numeriert zu werden. Im Fall einer Neunumerierung sind die AnsprOche forttaufend zu 
numerieren (Verwaftungsriohtlinien, Abschnitt 205 b)). 

Die Anderungen alnd In der Sprache abzufassen, In der dielnternatlonale Anmeldung verdffentllcrit wird. 



Welche Unterlagen alnd dan Anderungen beizufOgen? 
Beglettachreiben (Abschnitt 205 b)): 

Die Anderungen sind mit ein em Begleftschreiben einzureichen. 

Das Boglertschreiben wird nicht zusammen mit der intemationalen Anmeldung und den geanderten AnsprQchen veroffentUcht. Es 
ist nicht zu verwechseln mit der "Eridarung naeh Artikel 19(1)* (siehe unten, "Erklarung naeh Artikel 19 (1)*). 

Das Beglettachreiben tat naeh Wahl des Anmefdera In englischer oder franzosischer Sprache abzuf asaan. Bel engllschspra- 
chlgen Intemationalen Anmetdung>n 1st das Begleltschrelben aber ebenfatls In englischer, bel franzdslschaprachlgan Inter- 
natlonalen Anmetdungen in franzosischer Sprache abzufassen. 



Anmerkungen zu Formblatt PCT/ISA/220 (Blatt 1) (Januar 1994) 



: <XSfSA220NODEP4_l_> 



ANMERKUNGEN ZU FORMBLATT PCT/ISA/220 (F rtsetrung) 



lm Beglertschreiben sind die Unterschiede zwischen den AnsprOchen in der eingereichten Fassung und den geanderten AnsprOchen 
anzugeben. So at insbesondere zu jedem Anspruch in der intemationalen Anmeldung anzugeben (gleiohlautende Angaben zu 
verschiedenen AnsprOchen kdnnen zusammengefafit warden), ob 

0 der Anspruch unverandert ist; 

ti) der Anspruch gestrichen worden ist; 

iii) der Anspruch neu ist; 

iv) der Anspruch einen oder mehrere Anspruch e in der eingereichten Fassung ersetzt; 

v) der Anspruch auf die Teitung eines Anspruchs in der eingereichten Fassung zurQokzufOhran ist. 



Im folgenden slnd Belsplele angegeben, wle Anderungen lm Begfeitschreiben zu ertautem sind: 

1 . [Wenn ansteDe von ursprQnglich 48 AnsprOchen nach der Anderung einiger AnsprQche 51 AnsprOche existieren]: 

•Die AnsprOche 1 bis 29, 31 , 32, 34, 35, 37 bis 48 werden durch geanderte AnsprOche gleicher Numerierung ersetzt; AnsprOche 
30, 33 und 36 unverandert; neue AnsprOche 49 bis 51 hinzugefugt." 

2. (Wenn anstelle von ursprOngKch 1 5 AnsprOchen nach der Anderung alter AnsprOche 1 1 AnsprOche existieren]: 
"Geanderte AnsprOche 1 bis 1 1 treten an die Stetle der AnsprOche 1 bis 15." 

3. [Wenn ursprQnglich 1 4 AnsprOche existierten und die Anderung en darin bestehen, daB einige AnsprOche gestrichen werden und 
neue AnsprOche htnzugefQgt werden]: 

AnsprOche 1 bis 6 und 14 unverandert; AnsprOche 7 bis 13 gestrichen; neue AnsprQche 15, 16 und 1 7 hinzugefugt'Oder* An- 
sprOche 7 bis 13 gestrichen; neue AnsprOche 15, 16 und 17 hinzugefQgt; alle 0 brig en AnsprQche unverandert." 

4. [Wenn verschiedene Art en von Anderungen durch gefOhrt werden]: 

"AnsprOche 1-10 unverandert; AnsprOche 11 bis 13, 16 und 19 gestrichen; AnsprOche 14, 15 und 16 durch geanderten An- 
spruch 14 ersetzt; Anspruch 17 in geanderte AnsprOche 15, 16 und 17 unterteitt; neue AnsprOche 20 und 21 htnzugefQgt." 



'Erklarung nach Artikel 1 9(1 )• (Regel 46.4) 

Den Anderungen kann eine Erklarung beigefQgt werden, mit der die Anderungen eriautert und ihre Auswirkungen auf die 
Beschreibung und die Zeichnungen dargetegt werden (die rocht nach Artikel 1 9 (1) geandert werden kdnnen). 

Die Erklarung wind zusammen mit der intemationalen Anmeldung und den geanderten AnsprOchen veroffentficht. 
Sle Ist In der Sprsche abztifassen, In der die irttemationaien Anmeldung verdffentllcht wlrd. 

Sie muB kurz gehalten sein und darf , wenn in englischer Sprache abgefaftt oder ins Engitsche Obersetzt, nicht mehr sis 500 
Worter umf assen 

Die Erklarung ist nicht zu verwechseln mit dem Beglertschreiben, das auf die Unterechiede zwischen den AnsprOchen in der 
eingereichten Fassung und den geanderten AnsprOchen hinweist, und ersetzt letzteres nicht. Sie ist auf einem gesonderten Blatt 
einzureichen und in der Uberschrift als sdche zu kennzeichnen, vorzugsweise mit den Worten "Eridarung nach Artikel 19 (1)". 

Die Ertdarung darf keine herabsetzenden AuSerungen Ober den intemationalen Recherchenbericht oder die Bedeutung von in dem 
Bericht angefOhrten Veroffentlichungen enthalten. Sie darf auf im intemationalen Recherchenbericht angefOhrte Verofferrtlichun- 
gen, die sich auf einen bestimmten Anspruch beziehen, nur im Zusammenhang mit einer Anderung dieses Anspruchs Bezug 
nehmen. 



Auswirkungen eines beretts gestelften Ant rags auf intematlonaievoriauflge PrOfung 

Ist zum Zeitpunkt der Einreichung von Anderungen nach Artikel 19 beretts ein Antrag auf Internationale vortaufige PrOfung 
gestellt worden, so soilte der Anmelder in sein em Interesse gleichzeitig mit der Einreichung der Anderungen berm Intemationalen 
BOro auch eine Kopie der Anderungen bei der mit der intemationalen vorlaufigen PrOfung beauftragen Behdrde einreichen (siehe 
Regel 62.2 a), erster Satz). 



Auswirkungen von Anderungen hlnslchttich der Obersetzung dertntemationalen Anmeldung beim Elntrttt In die 
nationals Phase 

Der Anmelder wird darauf hingewiesen, daB bei Eintritt in die nationals Phase mogtfeherweise anstatt oder zusatzlich zu der Ober- 
setzung der AnsprOche in der eingereichten Fassung eine Obersetzung der nach Artikel 19 geanderten AnsprOche an rfe 
besfammten/ausgewahlten Amter zu Obermitteln ist. 

Nahere Einzelheiten Qber die Erfordemisse jedes bestimmten/ausgewahlten Amts sind Band II des PCT-Lertfaderts fur Anmelder 
zu errt nehmen. 



Anmerkungen zu Formblatt PCT/tSA/220 (Blatt 2) (Januar 1994) 



BNSDOCID: <XSlSA220NODEP4_l_> 



VERTRAG U 
AL7 



DIE INTERNATIONALE ZUSaAIeI 

Mem gebiet des patentwesSS 

PCT 

INTERNATIONALER RECHERCHENBERICHT 

(Artikel 18 sowie Regeln 43 und 44 PCT) 



Aktenzeichen des Anmelders Oder Anwalts 
1999P02665W0 


WEITERES siehe Mitteilung uber die Ubermittiung des internationalen 

Recherchenberichts (Formblatt PCT/ISA/220) sowie, soweit 
VORGEHEN zutreffend, nachstehender Punkt 5 


Internationales Aktenzeichen 

PCT/DE 00/02917 


Internationales Anmeldedatum 
(T ag/Mona t/Jahr) 

25/08/2000 


(Fruhestes) Prioritatsdatum (Tag/Monat/Jahr) 

26/08/1999 


Anmelder 

SIEMENS AKTIENGESELLSCHAFT et al . 



Dieser international Recherchenbericht wurde von der Internationalen Recherchenbehdrde erstellt und wird dem Anmeider gemafl 
Artikel 18 ubermittelt. Eine Kopie wird dem Internationalen Buro ubermittelt. 

Dieser international Recherchenbericht umfaGt insgesamt _3 Blatter. 

PT| Daruber hinaus liegt ihm jeweils eine Kopie der in diesem Bericht genannten Unteriagen zum Stand der Technik bei. 



1 . Grundlage des Berichts 

a. Hinsichtiich der Sprache ist die international Recherche auf der Grundlage der internationalen Anmeldung in der Sprache 
durchgefuhrt worden, in der sie eingereicht wurde, sofern unter diesem Punkt nichts anderes angegeben ist. 



□ 



2. 
3. 



Die international Recherche ist auf der Grundlage einer bei der Behorde eingereichten Ubersetzung der internationalen 
Anmeldung (Regel 23.1 b)) durchgefuhrt worden. 

Hinsichtiich der in der internationalen Anmeldung offenbarten Nucleotid- und/oder Aminosauresequenz ist die international 
Recherche auf der Grundlage des Sequenzprotokolls durchgefuhrt worden, das 

| | in der internationalen Anmeldung in Schrtfiicher Form enthalten ist. 

zusammen mit der internationalen Anmeldung in computerlesbarer Form eingereicht worden ist. 
bei der Behorde nachtragiich in schriftlicher Form eingereicht worden ist. 
bei der Behorde nachtragiich in computerlesbarer Form eingereicht worden ist. 

Die Erklarung, dafc das nachtragiich eingereichte schriftiiche Sequenzprotokoll nicht uber den Offenbarungsgehalt der 
internationalen Anmeldung im Anmeldezeitpunkt hinausgeht, wurde vorgelegt. 

Die Erklarung, daR die in computerlesbarer Form erfaf3ten Informationen dem schriftfichen Sequenzprotokoll entsprechen, 
wurde vorgelegt. 

Bestimmte Anspruche haben stch als nicht recherchierbar erwiesen (siehe Feld I). 
Mangelnde Einheitlichkeit der Erfindung (siehe Feld II). 



□ 
□ 
□ 
□ 

□ 

□ 
□ 



4. Hinsichtiich der Bezeichnung der Erfindung 

| | wird der vom Anmelder eingereichte Wortlaut genehmigt. 
|"X~| wurde der Wortlaut von der Behorde wie folgt festgesetzt: 
VERFAHREN ZUM TRAINIEREN EINES SPRECHERERKENNUNGSSYSTEMS 



Hinsichtiich der Zusammenfassung 

wird der vom Anmelder eingereichte Wortlaut genehmigt. 

wurde der Wortlaut nach Regel 38.2b) in der in Feld III angegebenen Fassung von der Behorde festgesetzt. Der 
I I Anmelder kann der Behcrde innerhalb eines Monats nach dem Datum der Absendung dieses internationalen 
Recherchenberichts eine Stellungnahme voriegen. 

Folgende Abbildung der Zeichnungen ist mit der Zusammenfassung zu veroffentlichen: Abb. Nr. _] 



| | wie vom Anmelder vorgeschlagen [~| keine der Abb. 

1"X"| weil der Anmelder selbst keine Abbildung vorgeschlagen hat. 
| | weil diese Abbildung die Erfindung besser kennzeichnet. 



Formblatt PCT/ISA/210 (Blatt 1) (Juli 1998) 



INTERNATIONALER RECHERCHENBERICHT 



inter^^nales Aktenzeichen 

PC^E 00/02917 



A. KLASSIRZIERUNG DES ANMELDUNGSGEGENSTANDES 

IPK 7 G10L17/00 



Nach der Internationalen Pate ntklassifikat ion (IPK) Oder nach der nationalen Klasstfikation und der IPK 



B. RECHERCHIERTE GEBIETE 



Recherchierter Mindestprufstoff (Klassifikationssystem und Klassifikationssymbole ) 

IPK 7 G10L 



Recherchierte aber nicht zum Mindestprufstoff gehorende Verdffentlichungen, soweit diese unterdie recherchierten Gebiete fallen 



Wahrend der internationalen Recherche konsultierte elektronische Datenbank (Name der Datenbank und evtl. verwendete Suchbegriffe) 

EPO-Internal , WPI Data, PAJ, INSPEC 



C. ALS WESENTLICH ANGESEHENE UNTERLAGEN 



Kategorie 0 Bezeichnung der Veroffentlichung, soweit erforderlich unter Angabe der in Betracht kommenden Teile 



Betr. Anspruch Nr. 



MOGAKI T ET AL: "Text-indicated speaker 
verification method using PSI-CELP 
parameters" 
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Beschreibung 

Verfahren zum Erkennen von Sprechern anhand deren Stimmen 

Die Erfindung betrifft ein Verfahren zum Erkennen von Spre- 
chern anhand deren Stimmen. 

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein 
Verfahren zum Erkennen von Sprechern anhand deren Stimmen an- 
zugeben, das robust, sicher und zuverlassig ist. 

Diese Aufgabe wird erf indungsgemali durch die im Patentan- 
spruch 1 angegebenen Merkmale gelost. 

Im folgenden wird die Erfindung unter Verwendung eines Flufi- 
diagramms naher beschrieben. 



1 . 

Die Erfindung ermoglicht die Erkennung des Sprechers anhand 
seiner Stimme. Das Problem der Sprechererkennung besteht dar- 
in, zwischen verschiedenen Sprechern zu unterscheiden oder 
die vorgegebene Sprecheridentitat zu uberprtifen, wobei die 
einzige Eingangsinf ormation die Aufzeichnung der Stimme des 
Sprechers ist. 

AuJJerdem wird eine Methode vorgeschlagen, die das Oberlisten 
des Zugangssystems verhindert, wenn die Stimme und das 
Schlusselwort von Dritten aufgenommen wird. 

Bei der Speicherung von komplexen Wahrscheinlichkeitsvertei- 
lungen fur die Sprachparameter eines Sprechers mufi zwischen 
Genauigkeit und Speicherbedar f ein Kompromiss geschlossen 
werden. Deswegen werden Methoden der Speicherung der Wahr- 
scheinlichkeitsverteilungen vorgeschlagen, die abhangig von 
der Anzahl der Sprecher einsetzbar sind. 
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2. 

Die Sprechererkennung wurde bisher z.B. mit Hilfe von Hidden- 
Markov Modellen oder durch Vektorquantisierung gelost, siehe 
Literatur [1] . 

5 

3. 

Die Erfindung lost das Problem der Sprechererkennung basie- 
rend auf den Parametern einer Analyse durch Synthese Kodie- 
rers mit der Linearen Pradiktion (LPAS) [1] (z.B. eines Har- 

10 monic Vector Excited Codecs [5] oder Waveform Interpolation 
Codec [4]). Die bisher verwendeten Parameter des Sprachsig- 
nals wie z.B. Cepstrale AR Parameter bringen keine zufrieden- 
stellende Losung des Problems. Deswegen muii auf andere Para- 
meter zugegriffen werden wie z.B. Parameter der Anregung des 

15 Vokaltraktes, die sprecherabhangige und zugleich weitgehend 
phonemenunabhangige Information tragen . 

Dariiber hinaus wird die Methode der Schatzung der Wahrschein- 
lichkeitsverteilung der Kodiererparameter fur den jeweiligen 
20 Sprecher gegeben, und eine Methode, die das Uberlisten des 
Zugangssystems verhindert . 

Sprecheridentif ikation 

Bei Systemen zur Sprechererkennung wird nach den statisti- 
25 schen Prinzipen [2] gepruft, ob der gesprochene Satz von ei- 
nem der vom Sprechererkennungssystem erfassten Sprecher ge- 
sprochen wurde. Dabei gibt es grundsatzlich zwei Arten von 
Sprechererkennungssystemen, die textabhangigen und die text- 
unabhangigen Systeme. FUr die in der Erfindung beschriebene 
30 Prozedur wird die Textunabhangigkeit des System durch eine 
erweiterte Trainingsphase erreicht, in der der Sprecher ein 
vielfaltiges Material aufzeichnen mufl und die Wahrscheinlich- 
keitsverteilungen der erwahnten Sprachsignalparameter aus dem 
gesamten Sprachmaterial bestimmt. Das Trainieren eines text- 
35 abhangigen Systems ist eine einfachere Aufgabe, weil das 

Sprachmaterial, das vom Sprecher wahrend der Nutzungsphase 
gesprochen wird, auf einige Schlusselworte oder bestimmte 
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Satze begrenzt ist. Die Vorbereitungsphase wird so lange 
durchgefiihrt , bis das System sicher die Stimme des Sprechers 
erkennt . 

5 Die Aufgabe der Sprecheridentifikation ist in Figur 1 (Prob- 
lem der Sprecheridentifikation) dargestellt. 

Die Sprecheridentifikation wird als ein Problem der Multiplen 
Detektion behandelt [2] . Die zu unterscheidenden Klassen, ei- 

10 ne fur jeden Sprecher, das von System erkannt werden soil, 
werden als sp f i = 1..M bezeichnet, mit M - Anzahl der von 
dem Sprechererkennungssystem erfassten Sprecher. Die Spre- 
chererkennung basiert auf den auf gezeichneten Sprachsignalen 
der jeweiligen Sprecher. Das Sprachsignal wird segmentiert in 

15 die Signalrahmen x = [x(l)..x(K)] (z.B. fiir einen Signalrahmen von 

20 ms Lange und eine Abtast f requenz von 8 kHz betragt K = 
160) . Die Segmentierung liefert die Sprachsignalrahmen 
x(l)..x(/V) , wobei N von der Gesamtlange des von dem Sprecher ge- 

sprochenes Satzes oder Schlusselwortes abhangt . Die Entschei- 
20 dung uber den Sprecher wird aus den Wahrscheinlichkeiten oder 
Wahrscheinlichkeitsdichten (zusammen als Wahrscheinlichkeits- 
scores bezeichneten) getroffen, dafi die Vektoren der Abtast- 
werte x(/) / = 1.JV der Klasse sp, zugehoren. Das statistisch op- 
timale Entscheidungsschema wahlt die Klasse sp, mit dem 
25 hochsten Wahrscheinlichkeitswert bei gegebenen x(/) , / = 1../V . 

D.h. der Vektor x(/) wird der Klasse spj zugeordnet, fur die: 

p(x(l)...x(/V) \spj)> p(x(l)...x(/V) | s Pi ) fiir alley * i 

30 Sprecherverif ikation 

Problem der Sprecherverif ikation besteht darin, die vorgege- 
bene Identitat des Sprechers anhand seiner Stimme zu iiberpru- 
fen. Dies entspricht der in Figur 2 (Problem der Sprecherve- 
rifikation) abgebildeten Situation. 

35 

Der Prozess der Sprecherverif ikation verlauft auf ahnliche 
Weise wie der bei der Sprecheridentifikation, d.h. es wird 
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ebenfalls die Segmentierung des gesprochenen Satzes durchge- 
fiihrt. Danach wird jedoch keine Klassif izierung der Stimme 
gemacht, sondern f iir die vorgegebene Sprecheridentitat ein 
Wahrscheinlichkeitsscore berechnet und mit einer Schwelle 
5 verglichen. Die Identitat des Sprechers wird also anhand sei- 
ner Stimme bestatigt , wenn : 

p(x(l)..x(/V) | spj) > schwelle 

10 wobei spj der vorgegebenen Sprecheridentitat entspricht. Die 
Schwelle mufl entsprechend hoch gesetzt werden urn die Situati- 
on zu vermeiden in der ein Sprecher mit einer anderer Identi- 
tat als die vorgegebene zugelassen/autorisiert wird. 

15 LPAS Kodierer 

Die heute eingesetzten Sprachkodierverf ahren basieren vorwie- 
gend auf dem Analyse-durch-Synthese Verfahren mit einem LPC- 
Synthesef ilter [2] . Die Sprachkodierung wird in diesen Ver- 
fahren durch Wiederholung der Kodierungs- und Dekodierungs- 

20 Operationen solange optimiert, bis der optimale Parametersatz 
fur den gegebenen Sprachabschni tt gefunden wird. 

Einer der am meisten verwendeten Typen des LPAS Kodierers ist 
der CELP Kodierer. Eine relativ neue Entwicklung ist der Har- 

25 monic Vector Excited Codec mit einer besonders fur die be- 

schriebene Aufgabe geeigneter Form der Anregungssignale . Syn- 
thesemodell eines CELP Kodierers ist in Figur 3 (Schema eines 
LPAS Kopierers) dargestellt. Das Synthesemodell definiert die 
Methode der Berechnung des synthetisierten Sprachsignals aus 

30 den quantisierten Parametern des Sprachsignals. Im allgemei- 
nen besitzt jeder LPAS Kodierer besitzt Parametergruppen : 

• Kurzzeitpradiktorparameter. Die Kurzzeitpradiktorparameter 
werden in der Regel mit Hilfe klassischer LPC Analyse be- 
35 rechnetet, wobei die Korrelations-Methode oder die Kovari- 

anz-Methode der Linearen Pradiktion angewendet wird [3] . 
Fur Signalrahmen der Lange von 20 bis 30 ms und eine Ab- 
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tastrate von 8kHz werden 8-10 LPC Koef f izienten verwendet . 
Die Kurzzeitpradiktorparameter konnen in verschiedenen 
Formen (z.B. die Ref lexionkoef f izienten oder als Line 
Spectrum Frequencies LSF) auftreten, abhangig davon, wel- 
che Darstellung sich besser quantisieren laflt. Es hat sich 
gezeigt, dafi die LSF Koef f izienten am besten zur Quanti- 
sierung geeignet sind und diese Form der Pradiktionskoef- 
f izienten wird in der Regel verwendet • Die Kuzrzei tpradik- 
torparameter werden in einer open-loop Prozedur berechnet, 
d.h. ohne der in Figur 1 dargestellten gesamten Optimie- 
rung mit den anderen Parametern bezuglich des Synthesefeh- 
lers . 

• Langzeitpradiktorparameter . Langzeitpradiktorparameter 
werden in einem Filter verwendet, der die Grundf requenz 
des Sprachsignals synthetisiert . Es wird am meisten ein 
Langzeitpradiktor mit einem Filterkoef f izient und einem 
Parameter fur die Grundperiode des Sprachsignals. Ein 
Langzeitpradiktor mit den Parametern b = [b t N] 1st ein Teil 
der Figur 2. Die Langzeitpradiktorparameter werden eben- 
falls in einer open-loop Prozedur berechnet ohne eine Ge- 
samtoptimierung mit den anderen Parametern. In manchen Ko- 
dierern wird manchmal eine verfeinerte Suche nach den 
Langzeitpradiktorparametern in einer closed-loop Prozedur 
durchgef uhrt . 

• Die Parameter der Anregung. In einem CELP Kodierer werden 
die 5-10ms Subrahmen des Restsignals in einer closed-loop 
Prozedur vektorquantisiert . Die gesendeten Parameter er- 
moglichen auf der Dekoderseite die Wiederherstellung der 
Signalformen aus dem gespeicherten Codebuch. 



In einem HVXC Codecs wird der Ausgang aus dem LPC Analyse 
Filter in die Frequenzdomane transf ormiert und die grundperi- 
odennormalisierte Spektraleinhiillende vektorquantisiert . 
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Sprechererkennung mit den Parametern eines LPAS Kodierers 
Die Parameter eines Sprachkodierers beschreiben ausfuhrlich 
die moglichen Sprachsignale mit einer wesentlich reduzierten 
Anzahl der Parameter im Vergleich zur Darstellung des Sprach- 
5 signals als eine Sequenz der Abtastwerte. 

Die Dekomposition des Sprachsignals in die erwahnten Parame- 
tergruppen kann auf verschiedene Weise zur Sprechererkennung 
verwendet werden. Die Methoden zur Berechnung der Parameter 
und Synthese des Sprachsignals implizieren die Methoden der 
Schatzung der Wahrscheinlichkei tsdichten (bzw. der Wahr- 
scheinlichkeiten fur die Parameter, die als diskrete Wahr- 
scheinlichkeitsvariablen betrachtet werden) . Die in einer 
closed-loop Prozedur bestimmt werden, sollen eigentlich als 
diskrete Wahrscheinlichkeitsvariablen betrachtet werden, weil 
es nicht moglich ist, fiir solche Parameter die Volumen der 
Parameterraumesregionen des Vektorquantisierers zu verbinden. 
Dies betrifft insbesondere die Anregungsparameter . Die Schat- 
zung der Wahrscheinlichkeitsverteilungen fiir solche Parameter 
wird durch die Berechnung von relativen Haufigkeiten der Pa- 
rameter/ Codevektoren im Trainingssat z bestimmt. 

Die in einer open-loop Prozedur im Kodierer berechnet werden, 
sind zuerst in einer nichtquant isierten Form verfiigbar und 
25 dann erst quantisiert, wobei in der Regel die Vektorquanti- 

sierung verwendet wird. Fur solche Parameter konnen die Wahr- 
scheinlichkeitsdichten aus dem Trainingssat z geschatzt wer- 
den. Dieser Ansatz wird vor allem fiir die Kurzzeitpradiktor- 
parameter angewendet . 

30 

Die Schatzung der Wahrscheinlichkeitsdichten basiert auf der 
Histogramm Methode [6] . Diese Methode benotigt die Kenntnisse 
der Volumen der mit den quantisierten Punkten verbundenen Re- 
gionen des Parameterraumes . 

35 

Eine Methode der Speicherung von Wahrscheinlichkeitsvertei- 
lungen ergibt sich gemaft Figur 5 (Sprecheridentif ikation mit 
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den Parametern eines LPAS-Kopierers ) , wenn die moglichen Co- 
devektoren fur die Sprachsignalparameter einmal fur die ganze 
Population "gespeichert werden, was dem Fall entspricht, dafi 
die Quantisierungsstuf en/Codevektoren aus der Datenbank be- 
5 stimmt, die die Auf zeichnungen von vielen Sprechern beinhal- 
tet, einmal bestimmt werden. Die Wahrscheinlichkeitsvertei- 
lungen der Parameter fiir die Sprecher werden dann zusammen 
mit den Indizien der Codevektoren fur die Parameter im System 
gespeichert. Sie eignet sich fur grofie Systeme mit sehr vie- 
10 len Anwendern (ATM, Zugangssysteme in Betrieben) . 

Eine andere Methode ergibt sich, wenn die Codevektoren fur 
die Parameter fur jeden Sprecher einzeln trainiert werden. 
Die Codevektoren werden dann zusammen mit den Werten der 

15 Wahrscheinlichkeitsdichten an den durch die Codevektoren be- 
stimmten Punkten des Parameterraumes gespeichert. Ein Schema 
dieser Methode ist in Figur 6 (Sprecheridentif ikation mit den 
Parametern eines LPAS Kopierers Wahrscheinlichkeitsdichten 
werden zusammen mit den Codevektoren fur die Parameter ge- 

20 speichert) gezeigt. Diese Methode ist fiir eine kleine Anzahl 
von Sprechern bestimmt (z.B. fiir eine mit der Stimme gesteu- 
erte Tiir in der Wohnung) . 

Trainingphase eines Sprechererkennungsys terns 
25 Die Wahrscheinlichkeitsdichteverteilungen fur die Sprecher- 
klassen werden aus dem Trainingsmaterial geschatzt. Fiir die 
textabhangige Sprechererkennung (Sprecheridentif ikati- 
on/Sprecherverif ikation) wird ein bestimmter Satz oder 
Schliisselwort wahrend der Trainingphase so lange wiederholt 
30 bis die Sprechererkennung sicher f unktioniert . 

Fur die textunabhangige Sprecherverif ikation muii ein phone- 
tisch ausgewogenes Sprachmaterial aufgenommen werden. Auch in 
diesem Fall mufl die Trainingphase solange wiederholt werden 
35 bis die Sprecheridentif ikation/verif ikation sicher funktio- 
niert . 
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Das wahrend der Trainingphase auf genommene Material wird zum 

Training mehrmals jeweils phasenverschoben verwendet, um das 

Sprechererkennungssystem unabhangig von der Anfangsphase der 

auf gezeichneten Stimmen zu machen. Die zum Training verwende- 
5 ten Daten wird als Trainingsatz TS spf bezeichnet wobei sp, den 

Sprecher symbolisiert - 

Schatzung der Wahrscheinlichkeitsdichten 

Um die er f indungsgemafte Methode zur Schatzung der Wahrschein- 
10 lichkeitsdichten der Parameter fur die Sprecherklassen zu be- 

schreiben, werden zuerst notwendige Definitionen eingefuhrt. 

Die eingeflihrte Abstraktion des Kodierungsprozesses hat den 

Vorteil, dali die Schatzung der Wahrscheinlichkeitsdichten auf 

einfache Weise beschrieben werden kann, ohne auf die sehr 
15 komplizierten Operationen im Sprachkodierer in Details einzu- 

gehen. Eine detaillierte Beschreibung der Parameterberechung 

kann in [4] und [5] gefunden werden. 

Ein Sprachkodierer arbeitet in Auswerteinterwallen . Fur jeden 
20 Signalrahmen werden in dem Sprachkodierer die im Abschnitt 

iiber LPAS Kodierer beschriebene Operationen durchgef iihrt , die 
die Parameter des Sprachsignals fur den jeweiligen Rahmen 
lief ern . 

25 Berechnung eines nicht quantisierten Parametervektor p aus 

dem Signalrahmen x in einer open-loop Oprimierungsprozedur 
wird als p = K p (x) geschrieben. Die Quantisierung des Parame- 
ters wird als: p = Q p (p) bezeichnet. Die Region im Parameter- 
raum der Parameter p, der im Kodierungsprozess auf den Code- 
30 vektor p abgebildet wird, wird als Sp = {p : Q p (p) = p} bezeichnet. 
Das Volumen von dieser Region wird als l/(Sp) bezeichnet. 

Der Satz moglicher Codevektoren fur den Parameter p wird als 
C p = {P/;/ = l-.A/ p } geschrieben mit A/ p Anzahl von Codevektoren. Der 

35 Satz von Regionen, die mit den Codevektoren verbunden sind, 
wird als R p = {S,;/ = l..A/ p } bezeichnet. Die Zugehorigkeitsf unktion 
einer Region S, wird als: 
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I fur p e Sj 
ifiirpe S; 

bezeichnet 



/ \ f lftir 



Die Haufigkeit des Vorkommens eines Parameters im Trainings- 
5 satz wird mit 

Anzanhl von Parameterwerten aus dem Training Satz TS sp . die in den Region S t fallen 
s ' Anzahl von Parameterwerten aus dem Training Satz TS sp . 



berechnet . 

Die geschatzte Wahrscheinlichkeitsdichteverteilung wird dann 
zu : 

n b f 

'Si 



P(P|s P/ ) = ^1 Sa ( P )— 



15 Schatzung der Wahrscheinlichkeiten 

Fur die Parameter, die als eine diskrete Wahrscheinlichkeits- 
variable betrachtet werden, d.h vor allem die Anregung aus 
dem Codebuch, die in einer closed-loop Prozedur optimiert 
wird und die Grundperiode des Sprachsignals, werden die Wahr- 

20 scheinlichkeitsf unktionen (probability mass functions) ge- 

schatzt. Diese werden als die Haufigkeiten der gegebenen Pa- 
rametercode im Trainingssatz fur den jeweiligen Sprecher be- 
st immt . 



25 Speichern der Wahrscheinlichkeitsverteilungen 

Die Sprachparameter in einem Sprachkodierer werden nicht alle 
gleichzeitig sondern nacheinander berechnet. Es werden z.B. 
zuerst die Kurzzeitpradiktorparameter berechnet und dann fur 
bereits bekannte Kurzzeitpradiktorparameter die restlichen 

30 Parameter bezuglich der Synthese Oder des Pradiktionsf ehlers 
optimiert. Dies ermoglicht effektives Speichern der Wahr- 
scheinlichkeitsverteilungen als bedingte Wahrscheinlichkeiten 
der Codevektoren in einer Baumstruktur . Dies ist moglich dank 
folgender Abhangigkeit : 



35 
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P(P/oPl.P* |sP/) = P(Pk \sPi)p(P L \sp ff p K )p(p A |sp /( p Kt p L ) 

p K - Vektor von Kurzzeitparameter 
p L - Vektor von Langzeitparameter 
5 Pa ~ Vektor von Anregungsparameter 

Eine wesentliche Vereinf achung ergibt sich, wenn die Sprach- 
parameter innerhalb eines Signalrahmens als statistisch unab- 
hangig angenommen werden konnen. Die obige Formel wird dann 
10 zu: 

P(Pk . Pl . P* I sp, ) = p(p K | SPi )p(p L | sp, )p(p A I sp) 

Die Wahrscheinlichkeitsdichten miissen im System an sehr vie- 
15 len Punkten im Parameterraum gespeichert werden. Die zum 

Speichern von Wahrscheinlichkeitsdichten verwendete Bitanzahl 
ist fur die Komplexitat des Gesamtsystems kritisch. Fur die 
Wahrscheinlichkeitswerte wird deswegen ein Vektorquantisierer 
verwendet . Dies ermoglicht die Reduzierung der zum Speichern 
20 der Wahrscheinlichkeitsverteilungen verwendeten Bitanzahl. 

Sys t emsi ch erh ei t 

Um die Uberlistung des Systems zu verhindern, wird gleichzei- 
tig mit der Aufzeichnung der Stimme des Sprechers ein Rau- 
25 schen ausgestrahlt , das dem System bekannt ist und aus dem 
das digitalisierte Sprachsignal subtrahiert wird. 

5. 

Die Erfindung kann fur Anwendungen der Zutrittskontrolle, wie 
30 z.B. die mit der Stimme gesteuerte Tiir, oder als Verifikati- 
on, beispielsweise fur Bankzugangssysteme genutzt werden. Die 
Prozedur kann als ein Programmmodul auf einem Prozessor imp- 
lementiert werden, der die Aufgabe der Sprechererkennung im 
System realisiert . 

35 

Ein Ausf iihrungsbeispiel der Erfindung ist anhand der Figuren 
7 und 8a bis 8m beschrieben. 
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Patentanspruche 

1. Verfahren zum Erkennen von Sprechern anhand deren Stimmen 
mit folgenden Merkmalen: 
5 (a) in einer Vorbereitungsphase, 

(al) werden von M Sprechern jeweils k textabhangige oder 
textunabhangige Ref erenzsprachaufierungen, die einen sprecher- 
bezogenen Trainingssatz bilden, in erste Sprachsignalrahmen 
der Lange L segmentiert , 
10 (a2) werden die ersten Sprachsignalrahmen einem auf linearer 
Pradiktion basierenden Analyse-durch-Synthese-Kodierer zuge- 
f Uhrt / 

(a3) wird in dem Analyse-durch-Synthese-Kodierer fur jeden 
der M Sprecher und jeweils jeden ersten Sprachsignalrahmen 
15 ein erster Kur zzeitpradiktorparameter , Langzeitpradiktorpara- 
meter und/oder Anregungsparameter des Kodierers berechnet, 
wobei die Parameter dann ein sprecherbezogenes Trainingsmate- 
rial bilden, 

(a4) wird in dem Analyse-durch-Synthese-Kodierer fur jeden 
20 der M Sprecher und jeweils jeden ersten Sprachsignalrahmen 
die Haufigkeit des jeweiligen Vorkommens des ersten Kurz- 
zeitpradiktorparameters, Langzei tpradiktorparameters und/oder 
Anregungsparameters des Kodierers in dem sprecherbezogenen 
Trainingssatz bzw. die Wahrscheinlichkeitsdichten, mit der 
25 der erste Kur zzeitpradiktorparameter , Langzeitpradiktorpara- 
meter und/oder Anregungsparameter in dem sprecherbezogenen 
Trainingssatz enthalten ist, berechnet, 

(a5) werden die berechneten Haufigkeiten bzw. Wahrscheinlich- 
keitsdichten sprecherbezogen als Sprecherdaten gespeichert, 
30 (b) in einer simulierten Nutzungsphase der Trainingsphase, 
(bl) wird eine textabhangige oder textunabhangige Simulati- 
onssprachauiierung eines m-ten Sprechers mit m=l..M in zweite 
Sprachsignalrahmen der Lange L segmentiert, 

(b2) werden die zweiten Sprachsignalrahmen dem Analyse-durch- 
35 Synthese-Kodierer zugefuhrt, . 

(b3) wird in dem Analyse-durch-Synthese-Kodierer flir den m- 
ten Sprecher und jeweils jeden zweiten Sprachsignalrahmen ein 
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zweiter Kurzzeitpradiktorparameter, Langzeitpradiktorparame- 
ter und/oder Anregungsparameter des Kodierers berechnet, 
(b4) werden fur jeden zweiten Sprachsignalrahmen aus dem be- 
rechneten zweiten Kurzzeitpradiktorparameter, Langzeitpradik- 
5 torparameter und/oder Anregungsparameter und den fur den m- 
ten Sprecher in der Vorbereitungsphase gespeicherten Spre- 
cherdaten erste Wahrscheinlichkeitstref f er berechnet, die an- 
geben, mit welcher Wahrscheinlichkeit der zweite Kurzzeitpra- 
diktorparameter, Langzeitpradiktorparameter und/oder Anre- 
10 gungsparameter mit dem ersten Kur zzeitpradiktorparameter , 

Langzeitpradiktorparameter und/oder Anregungsparameter uber- 
einstimmt , 

(b5) werden die ersten Wahrscheinlichkeitsscores aus alien 
zweiten Sprachsignalrahmen zusammengef alit , 

15 (b6) wird uberpriift, ob die zusammengef aiiten ersten Wahr- 
scheinlichkeitsscores groBer einer vorgegebenen ersten 
Schwelle sind, die Stimme des m-ten Sprechers bestatigt, wenn 
die zusammengef aJJten ersten Wahrscheinlichkeitsscores groller 
als die vorgegebene erste Schwelle sind oder die Vorberei- 

20 tungsphase solange fur weitere i Ref erenzsprachaulierungen des 
m-ten Sprechers durchgef uhrt , bis die Stimme des m-ten Spre- 
chers bestatigt wird, wenn die zusammengef aiiten ersten Wahr- 
scheinlichkeitsscores kleiner gleich oder kleiner der vorge- 
gebenen ersten Schwelle sind, 

25 (c) in einer Nut zungsphase 

(cl) wird eine textabhangige oder textunabhangige Nutzsprach- 
auflerung des m-ten Sprechers mit m=l.. M in dritte Sprachsig- 
nalrahmen der Lange L segmentiert, 

(c2) werden die dritten Sprachsignalrahmen dem Analyse-durch- 
30 Synthese-Kodierer zugefuhrt, 

(c3) wird in dem Analyse-durch-Synthese-Kodierer fur den m- 
ten Sprecher und jeweils jeden dritten Sprachsignalrahmen ein 
dritter Kurzzeitpradiktorparameter , Langzeitpradiktorparame- 
ter und/oder Anregungsparameter des Kodierers berechnet, 
35 (c4) werden fur jeden dritten Sprachsignalrahmen aus dem be- 
rechneten dritten Kurzzeitpradiktorparameter, Langzeitpradik- 
torparameter und/oder Anregungsparameter und den fur den m- 
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ten Sprecher in der Vorbereitungsphase gespeicherten Spre- 
cherdaten zweite Wahrscheinlichkeitstref f er berechnet/ die 
angeben, mit welcher Wahrscheinlichkeit der dritte Kurz- 
zeitpradiktorparameter, Langzeitpradiktorparameter und/oder 
5 Anregungsparameter von dem m-ten Sprecher ausgesprochen wur- 
de, 

(c5) werden die zweiten Wahrscheinlichkeitstref fer aus alien 
dritten Sprachsignalrahmen zusammengef afit, 

(c6) wird uberpruft, ob die zusammengef afiten zweiten Wahr- 
10 scheinlichkeitsscores grofier einer vorgegebenen zweiten 

Schwelle sind, die Stimme des m-ten Sprechers wird erkannt, 
wenn die zusammengef afiten zweiten Wahrscheinlichkeitstref fer 
grofier der vorgegebenen zweiten Schwelle sind oder die Stimme 
des m-ten Sprechers wird nicht erkannt, wenn die zusammenge- 
15 fafiten zweiten Wahrscheinlichkeitsscores kleiner gleich oder 
kleiner der vorgegebenen zweiten Schwelle sind. 

2 . Ver f ahren nach Anspruch 1, dadurch gekennzeich- 
n e t , dafi 

20 als ein parametrischer Kodierer, insbesondere ein "Harmonic 

Vector Excited Predictive" -Kodierer oder ein "Waveform Inter- 
polating" -Kodierer verwendet wird. 

3 . Ver f ahren nach Anspruch 1 , dadurch gekennzeich- 
25 net, dafi 

als Analyse-durch-Synthese-Kodierer ein auf linearer Pradik- 
tion basierender Kodierer, insbesondere ein LPAS-Kodierer be- 
nutzt wird. 

30 4. Verfahren nach einem der Anspruche 1 bis 3, dadurch 
gekennzeichnet , daft 

die Haufigkeiten bzw. Wahrscheinlichkeitsdichten mit einem 
Vektorquantisierer mit einer bestimmten, wesentlich reduzier- 
ten Bitanzahl quantisiert werden. 

35 

5. Verfahren nach einem der Anspruche 1 bis 4, dadurch 
gekennzeichnet, dafi 
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mit der Eingabe der SprachaulJerung des Sprechers in das Spre 
chererkennungssystem ein dem Sprechererkennungssystem bekann 
tes Rauschen mit eingegeben wird. 

6. Verfahren nach einem der Anspriiche 1 bis 5, dadurch 
gekennzeichnet, daft 

das miteingegebene Rauschen intern vor der Segmentierung von 
der Aufnahme der Sprecherstimme subtrahiert wird. 
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Zusammenf as sung 

Verfahren zum Erkennen von Sprechern anhanci deren Stimmen 

5 Die Erfindung betrifft ein Verfahren zur Sprechererkennung 
unter Anwendung von Parametern eines LPAS-Kopierers oder 
eines parametrischen Kopierers zur Modellierung der Wahr- 
scheinlichkeitsverteilung fur die Sprecherklassen . 
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FIG 6 
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FIG 7 
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Kurzzeitpra^iiktOTparaineter, die 
l^gzeitpiadiktorpararneter und 
das Langzeitrestsignal berechnet 



Fur jeden Rahmen berechne die 
Wahrscheinlichkeilssscores 
(Wahrscheinlichkeiten oder 
Wahrscheinlichk eitsdichten) 

+ 



Zusarnxnenf assung von 
Wahrscheinlichkeitsscores 
aus alien Signalrabmen. 
Es wird angenommen, daB die 
Signalrahmen des Sprachsignals 
statistiscb unabhangig sind 



vorgegebene Sprecheridentitat 



Sprecherdaten 
Wahrscheinlichkeitsverteihing von 
Sprachparameter 



Entscheidung, db die vorgegebene 
Identitat des Sprechers und die 
Stimme des Sprechers 

ubereinstimmen 



09/830497 



7/19 
FIG 8a 



Vorbereitungsgphase des Sprechererkennugns systems* 
(Verlauf fur den Sprecher j) 



Training eines 
textunabhangigen Systems 



Training eines 
textabhaengigen Systems 



Aufnahme eines vielf aeltigen 
phonetisch ausgewogenen 
Materials von dem j-ten, 
j=l..M Systemanwender . Eine 
relativ grosse Anzahl 1..K der 
ReferenzsprachauBerungen 



Bestimmte Wortseguenz, ein 
Satz oder Schluesselwort . 
Entsprechende Anzahl 1..K der 
ReferenzsprachauBerungen dem 
j-ten, j=l..M Systemanwender. 



Segmentierung des Trainingsmaterials 
in die Signalrahmen x(l)...x(N) mit N 
abhangig von der Gesamtlange der 
Sprachauflerungen. x (i) = [x (1) . - .x (L) ] 
mit L - Lange des Signalrahmens . 
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* Der im folgenden definierte Prozess 
Sprechererkennungssystems durchgef tlhrt 
die Erstellung der Sprecherdaten ftir j 



Training der sprecherunabhangigen 
Codebtlcher fur die 

Anregungsparameter . Codebtlcher der 
grundperiodennormalisierten 
Spektralformen des LPC Restsignals 
Cb K = [C Ai €R p , i=l..L A ], (La — Anzahl 
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Codevektors) . Parameter in gleicher 
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Das Ziel der Vorbereitungsphase ist 
eden der M Sprecher. 
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FIG 8b 
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von Sprechern <10 
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Die Codebttcher sind 
trainiert fUr jeden der 
M Sprecher mit dem von 
dein jeweiligen Sprecher 
auf genomenen Material 



Training der sprecherunabhangigen 
CrtfebUcher ftlr die Kurzzeitparameter 
m lt Hilfe des K-means Algorithmus Cb K 
* [ Ckj e R p # i=l..N K ], N K " Anzahl der 
£<?debucheintraegen. p = 8.-10 Lange 
des LSF Codevektors. 



Training der sprecherunabhangigen 
Codebtlcher ftlr die 

Anregungsparameter . Codebticher der 
grundperiodennormalisierten 
Spektralformen des LPC Restsignals 
Cb K = IC A i€R p , i=l..N A ], (Na - Anzahl 
der Codevektoren, p = 44 Lange des 
harmonischen Codevektors)- Parameter 
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Berechnung der 
Kurzzeitparameter ftlr 
J^den Signalrahmen 
f*(i) , i = 1. -N 
Trainingsset ftlr die 
Kurzzeitparameter wird 
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Sprecher gebildet : 
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Berechnung der 
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jeden Signalrahmen 
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Berechnung der 
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normalisierte. 
Spektralformen des 
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Trainingsset fUr die 
Kurzzeitparameter wird 
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* ISO/IEC 14496-3 Information Technology - Very Low Bitrate Audio-Visual 
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FIG 8c 
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FIG 8d 
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FIG 8 



Simulierte Nutzungsphase 
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Simulierte Nutzungsphase fur 
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Aufnahme einer beliebigen K+l- 
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Bestimrote Wortsequenz, ein 
Satz oder Schluesselwort . 
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j-ten Systemanwender . 
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Segmentierung der TestsprachSuBerung 
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FIG 8f 
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Berechnung fttr die 
Kurzzeitparameter 
PK(i) , i = 1 . . N in 
jedem Rahmen der 
Wahrscheinlichkeit 
p(Px(i) I Sprecher j ) 
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FIG 8g 
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FIG 8h 
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FIG 8i 



Wahrscheinlichkeitsverteilungen 
der Sprachparameter fUr den 
Sprecher 1 (in der Form 
abhangig von der Anzahl der 
Systemanwender) 



Wahrscheinlichkeitsverteilun- 
gen fttr die Kurzzeitparameter 



Wahrscheinlichkeitsverteilun- 
gen ftlr die Langzei tparameter 



Wahrscheinlichkeitsverteilun- 
gen fiir die Anr egungsparameter 
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Sprecher j (in der Form 
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FIG 8j 



S precherverifikation 
(2^) Bis zum Sprecher M 
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Vorgegebene Identitat des Sprechers 
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jedem Rahmen der 
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Rahmen der 
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Berechnung fur die 
Anregungsparameter 
p A (i), i - 1 . . N in 
jedem Rahmen der 
Wahrscheinlichkeit 
P(PaU) I Sprecher j) 



Berechnung der Wahrscheinlichkeitsscores jeden Signalrahmen: 



Zusanunenfassung der Ergebnisse aus^allen Signal rahmen. 

.tatistik WS = EI MPr(0,P^(').P i (0 1 Sprecher j) 



Berechnung der Testsi 



T 
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FIG 8k 
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FIG 81 




Bis zuro 
Sprecher M 
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Sprecheridentif ikation 

0 



Berechnung fur die 
Kurzzeitparameter pic(i), i 
= 1 .. N in jedem Rahmen 
der Wahrscheinlichkeiten 
p(Pn(i) I Sprecher m) , 
m=l . .M 



Ergebnisse ftlr jeden 
der M Sprecher 



© 



Berechnung fur die 
Kurzzeitparameter p*(i), i 
« 1 N in jedem Rahmen 
der Wahrscheinlichkeiten 
p (Px. (i) I Sprecher m) , 
m=l . .M 



Ergebnisse ftlr jeden 
der M Sprecher 



Berechnung ftlr die 
Kurzzeitparameter Px(i)r 
i = 1 . . N in jedem 
Rahmen der 

Wahrscheinlichkeiten 
p (Pa (i) I Sprecher m) , 
m-l..M 



Ergebnisse ftlr jeden 
der M Sprecher 



Berechnung der Wahrscheinlichkeitsscores fur jeden Signal rahmen: 
ptPrU), Pi.(i), Pa (i) I Sprecher m) = p* <Dpl U>F* <i) ftlr jeden der 
M Sprecher m = 1..M 



Zusammenfassung der Ergebnisse aus alien Signalrahmen. Berechnung der 
Teststatistik WS(m) = Y\ p(p K (0> Va (0» Pl (0 I Sprecher m) ftlr jeden der m=l . .M Sprecher 
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FIG 8m 
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Sprecheridentitat 



